今日应用
今日话题
ECCV’24|生成质量提升80%!清华AIR提出SCP-Diff:真假难辨的驾驶场景生成新方案
重点标签 Semantic Image Synthesis、State-Of-The-Art、Noise Prior、Diffusion、Cityscapes
文章摘要
本文介绍了一种名为“Noise Prior”的新技术,由清华大学智能产业研究院的赵昊老师团队联合其他机构共同提出。该技术针对语义图像合成(Semantic Image Synthesis, SIS)任务,通过在Diffusion推理过程中引入噪声先验信息,显著提升了图像生成质量,并在多个数据集上实现了最佳效果。具体来说,该技术在Cityscapes数据集上的Fréchet inception distance(FID)值从44.5降低到了10.5。
研究背景指出,现有的基于生成对抗网络(GAN)的图像生成方法存在质量不足的问题,而Diffusion模型的出现推动了图像生成质量的提升。然而,这些模型在生成与用户输入控制相符的图像时仍存在质量较差的情况。通过实验分析,研究团队发现这一问题主要源于训练和推理过程中使用的噪声分布不匹配。
为了解决这一问题,研究团队在推理阶段引入了空间噪声先验和类别噪声先验,无需重新微调即可生成更高质量的图像。这一方法在Cityscapes、ADE20K和COCO-Stuff三个数据集上均取得了State-of-The-Art的结果。此外,通过案例研究,展示了使用空间先验的模型在构建场景布局时具有更广泛的感受野,而使用普通先验的模型则容易集中在狭窄的局部区域。
文章还详细介绍了空间噪声先验和类别噪声先验的计算方法,并通过联合先验融合了两者的优点。实验部分展示了不同噪声先验对SIS生成效果的影响,并与现有最先进模型进行了比较,证明了联合先验在图像质量、与语义图的一致性方面的优势。消融实验进一步探讨了去噪步数、生成图像多样性、参考图像数量等因素对结果的影响,并最终通过用户研究验证了所提方法的用户偏好度。
总结来说,这项工作通过引入推理噪声先验,有效解决了语义图像合成任务中的图像质量和与语义图一致性问题,在多个数据集上实现了最佳性能,为未来研究提供了新的思路和高质量图像资源。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台