ICLR’24 Spotlight|PixArt-α:文生图扩散 Transformer 架构的快速训练

AI最新资讯2个月前发布 tree
34 0 0

今日应用


今日话题


ICLR’24 Spotlight|PixArt-α:文生图扩散 Transformer 架构的快速训练
ICLR’24 Spotlight|PixArt-α:文生图扩散 Transformer 架构的快速训练
 

重点标签 PixArt-αTransformer文生图模型图像合成训练效率

文章摘要


PixArt-α是一种由华为诺亚方舟实验室、香港大学和香港科技大学共同研发的文生图(Text-to-Image, T2I)扩散Transformer架构。该模型在训练速度、图像质量、艺术家风格和语义控制方面表现出色,训练时间仅为Stable Diffusion v1.5的12%,训练成本约28,400美元,远低于其他模型。PixArt-α支持高达1024×1024分辨率的高分辨率图像合成,具有三个核心贡献:训练策略分解、高效的T2I Transformer架构和高信息量的数据。

PixArt-α的训练过程分为三个阶段:学习自然图像的像素值、学习文本图像对齐和提高图像的美学质量。通过优化像素依赖、文本图像对齐和图像美学质量,PixArt-α实现了快速训练。此外,PixArt-α采用了重参数化技术,允许T2I模型直接加载class-condition模型的参数,提高计算效率。

在数据集构造方面,PixArt-α利用视觉语言模型LLaVA生成高信息密度的字幕,提高了文本图像对齐的效率。通过使用SAM数据集和JourneyDB等高质量美学数据进行微调,PixArt-α能够生成具有高分辨率和美学质量的图像。

消融实验结果表明,PixArt-α在图像质量、艺术家风格和语义控制方面表现优异。与现有大规模T2I模型相比,PixArt-α在训练效率和图像质量上具有明显优势,为AIGC社区提供了一个负担得起资源消耗的高质量图像生成器。

PixArt-α的论文《PIXART-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis》已被ICLR 2024 Spotlight收录。项目主页为http://pixart-alpha.github.io/,论文地址为http://arxiv.org/pdf/2310.00426。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...