Llama也能做图像生成?文生图模型已开源

AI最新资讯4个月前发布 tree
40 0 0

今日应用


今日话题


Llama也能做图像生成?文生图模型已开源
Llama也能做图像生成?文生图模型已开源
 

重点标签 LLamaGen图像生成自回归模型多模态大模型开源社区

文章摘要


极市导读:最近,香港大学和字节跳动共同提出了一种名为LLamaGen图像生成模型,该模型基于自回归模型LLama,首次在ImageNet benchmark上超越了LDM、DiT等扩散模型。这一成果证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

研究动机多模态大模型的技术路线倾向于向大型语言模型(LLM)的技术路线靠拢。研究团队从ViT架构中得到启示,认为最初的ViT架构也能实现相似的性能,这一理念可能同样适用于多模态领域。此外,自回归模型与扩散模型的比较也激发了研究团队提出开源版的基于自回归模型的图像生成模型。

方法:LlamaGen模型的成功归结于三个关键设计:图像压缩/量化器、可扩展的图像生成模型和高质量的训练数据。模型采用了与VQ-GAN相似的CNN架构,并对image tokenizer进行了改进。LlamaGen的架构基于Llama语言模型,包括使用RMSNorm的pre-normalization、SwiGLU和RoPE。在Class-conditional和Text-conditional图像生成模型中,采用了简单的实现方式,即class或text embedding作为起始token,后续的image token通过next-token prediction生成。

实验:LlamaGen在ImageNet benchmark上的FID、IS、Precision和Recall等指标上表现出色,特别是LlamaGen-3B模型在各个参数量级上均优于以前的模型。此外,LlamaGen在Text-conditional图像生成方面也取得了显著成果,第二阶段的训练显著提高了生成图像的视觉质量。

结语:LlamaGen的成功为自回归模型在图像生成领域的应用提供了新的可能性。尽管目前的LlamaGen仍处于发展初期,但未来的改进方向包括更大的分辨率、更高的可控性和视频生成等。从多模态大模型的视角看,自回归模型在理解任务和生成任务上的可行性已被证明,下一步是在同一个模型中联合训练,这需要更多的图文数据和更大的计算资源。

公众号后台回复“数据集”获取100+深度学习各方向资源整理。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...