文本生成4K超高清图像，华为等推出创新模型PixArt-Σ

AI最新资讯4个月前发布 tree

56 0 0

今日应用

万彩AI – 换脸工具

应用介绍万彩AI换脸工具 - ...

今日话题

文本生成4K超高清图像，华为等推出创新模型PixArt-Σ

重点标签 AIGC、PixArt-Σ、图像生成、训练效率、4K分辨率

文章摘要

华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同推出了PixArt-Σ，这是一种文本生成4K超高清图像的模型。与前一代PixArt-α相比，PixArt-Σ在图像质量、细节、训练效率和文本语义理解方面都有显著提升。特别是训练效率，PixArt-Σ基于DiT架构并引入了一种高效的注意力模块，使得模型在生成4K分辨率图像时更加高效。

PixArt-Σ的核心技术是”从弱到强”的训练方法，通过结合高效Tokens压缩注意力模块，实现了从弱模型到强模型的高效演化。高效Tokens压缩注意力机制通过只对K和V进行压缩，保留了所有的Q，有效解决了像素级别Tokens处理中的计算复杂度问题。此外，PixArt-Σ采用了”Conv Avg Init”权重初始化方案，加速了模型的微调流程。

在训练方法上，PixArt-Σ采用了循序渐进的策略，先从低分辨率图像开始训练，逐步过渡到高分辨率，最终支持2K和4K分辨率。为了提升生成图像的质量和多样性，研究人员还搜集了一个包含3300万张高分辨率图像的内部数据集Internal-Σ，并采用了更强大的Share-Captioner模型来生成图像文本描述。

PixArt-Σ的生成图片案例展示了其在质量、细节和语义还原方面的优秀表现。这项技术的发展将为AIGC领域带来更多的可能性和创新。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

文本生成4K超高清图像，华为等推出创新模型PixArt-Σ

今日应用

今日话题

文章摘要

文章来源

国内AI代写top，一文讲清AI代写逻辑

总结374篇相关工作，陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

相关文章

暂无评论

热门网址

热门标签