今日应用
今日话题
ECCV’24|直接生成 4K图像! PixArt-Σ:Weak-to-Strong 训练的 4K 高清文生图模型
重点标签 PixArt-Σ、4K图像、文生图、Diffusion Transformer、Weak-to-Strong训练
文章摘要
PixArt-Σ是PixArt系列的最新力作,由华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学共同研发。该模型是一种Diffusion Transformer(DiT),能够直接生成4K分辨率的图像。与前身PixArt-α相比,PixArt-Σ在图像保真度和文本提示对齐质量上都有显著提升,同时训练效率更高。PixArt-Σ的关键特性包括高质量的训练数据、高效的token压缩模块和”weak-to-strong training”策略。
PixArt-Σ使用了一个新的高质量数据集,包含33M高分辨率图像和2.3M张4K图像,以及更精确和详细的图像标题。此外,模型采用了Key Value token压缩技术,通过Group Convolution在局部集成Key和Value,显著提高了生成超高分辨率图像的效率。
在训练策略上,PixArt-Σ采用了”weak-to-strong training”,通过替换VAE、扩展分辨率和应用KV Token压缩等技术,快速从弱模型演化为强模型。实验结果显示,PixArt-Σ在图像质量和用户指令遵从性能上都优于现有的文生图扩散模型,如SDXL和SD Cascade,且模型参数更低。
PixArt-Σ的生成能力支持创建高分辨率海报和墙纸,有效支持了电影和游戏等需要高质量视觉内容的行业。通过Human/AI偏好研究,PixArt-Σ在图像质量和文本对齐方面的表现也得到了验证。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台