今日应用
今日话题
文本生成4K超高清图像,华为等推出创新模型PixArt-Σ
重点标签 AIGC、PixArt-Σ、图像生成、训练效率、4K分辨率
文章摘要
华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同推出了PixArt-Σ,这是一种文本生成4K超高清图像的模型。与前一代PixArt-α相比,PixArt-Σ在图像质量、细节、训练效率和文本语义理解方面都有显著提升。特别是训练效率,PixArt-Σ基于DiT架构并引入了一种高效的注意力模块,使得模型在生成4K分辨率图像时更加高效。
PixArt-Σ的核心技术是”从弱到强”的训练方法,通过结合高效Tokens压缩注意力模块,实现了从弱模型到强模型的高效演化。高效Tokens压缩注意力机制通过只对K和V进行压缩,保留了所有的Q,有效解决了像素级别Tokens处理中的计算复杂度问题。此外,PixArt-Σ采用了”Conv Avg Init”权重初始化方案,加速了模型的微调流程。
在训练方法上,PixArt-Σ采用了循序渐进的策略,先从低分辨率图像开始训练,逐步过渡到高分辨率,最终支持2K和4K分辨率。为了提升生成图像的质量和多样性,研究人员还搜集了一个包含3300万张高分辨率图像的内部数据集Internal-Σ,并采用了更强大的Share-Captioner模型来生成图像文本描述。
PixArt-Σ的生成图片案例展示了其在质量、细节和语义还原方面的优秀表现。这项技术的发展将为AIGC领域带来更多的可能性和创新。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...