今日应用
今日话题
别只盯着DiT,国产模型也在暗自发力!U-ViT:ViT 架构实现 Diffusion 的开山之作!
重点标签 ViT、U-Net、扩散模型、图像生成、Transformer
文章摘要
本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT,该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型中基于卷积的U-Net架构,同时保持了U形的宏观结构。在U-ViT中,所有输入,包括时间、条件和噪声图像块,都被视为tokens,并且在模型的浅层和深层之间使用了long skip connections。这种设计使得U-ViT在处理图像生成任务时表现出色,特别是在无条件或条件图像生成以及文生图任务中。
U-ViT的实验结果显示,在ImageNet 256×256的类条件图像生成任务中,它的FID达到了2.29,在MS-COCO上的文生图任务中达到了5.48的FID,且未使用大型外部数据集。此外,文章还探讨了long skip connection在基于扩散模型的图像建模中的重要性,以及上下采样对模型性能的影响。
文章还详细讨论了U-ViT的实现细节,包括对关键设计进行的系统性实证研究,如long skip connections的结合方式、时间信息的融入方式、额外卷积的使用、Patch Embedding的变体以及位置编码的变体。这些研究为U-ViT的性能优化提供了有价值的见解。
最后,文章还探讨了U-ViT在不同深度、宽度和Patch Size下的缩放性能,以及在无条件图像生成、类条件图像生成和文生图任务中的实验结果。这些实验结果进一步证明了U-ViT在图像生成领域的潜力和有效性。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台