文本生成4K超高清图像,华为等推出创新模型PixArt-Σ

AI最新资讯3个月前发布 tree
42 0 0

今日应用


今日话题


文本生成4K超高清图像,华为等推出创新模型PixArt-Σ
文本生成4K超高清图像,华为等推出创新模型PixArt-Σ
 

重点标签 AIGCPixArt-Σ图像生成训练效率4K分辨率

文章摘要


华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同推出了PixArt-Σ,这是一种文本生成4K超高清图像的模型。与前一代PixArt-α相比,PixArt-Σ在图像质量、细节、训练效率和文本语义理解方面都有显著提升。特别是训练效率,PixArt-Σ基于DiT架构并引入了一种高效的注意力模块,使得模型在生成4K分辨率图像时更加高效。

PixArt-Σ的核心技术是”从弱到强”的训练方法,通过结合高效Tokens压缩注意力模块,实现了从弱模型到强模型的高效演化。高效Tokens压缩注意力机制通过只对K和V进行压缩,保留了所有的Q,有效解决了像素级别Tokens处理中的计算复杂度问题。此外,PixArt-Σ采用了”Conv Avg Init”权重初始化方案,加速了模型的微调流程。

在训练方法上,PixArt-Σ采用了循序渐进的策略,先从低分辨率图像开始训练,逐步过渡到高分辨率,最终支持2K和4K分辨率。为了提升生成图像的质量和多样性,研究人员还搜集了一个包含3300万张高分辨率图像的内部数据集Internal-Σ,并采用了更强大的Share-Captioner模型来生成图像文本描述。

PixArt-Σ的生成图片案例展示了其在质量、细节和语义还原方面的优秀表现。这项技术的发展将为AIGC领域带来更多的可能性和创新。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...