Llama也能做图像生成？文生图模型已开源

AI最新资讯4个月前发布 tree

40 0 0

今日应用

Text To Speech

Text To Speech，文本转语音，文本朗读，让机器能够说话。构建自然说话的应用和服务，从 147 种语言和变体中选择 456 种语音。借助高表现力和类似人类的神经语音，让你的方案生动起来。

今日话题

Llama也能做图像生成？文生图模型已开源

重点标签 LLamaGen、图像生成、自回归模型、多模态大模型、开源社区

文章摘要

极市导读：最近，香港大学和字节跳动共同提出了一种名为LLamaGen的图像生成模型，该模型基于自回归模型LLama，首次在ImageNet benchmark上超越了LDM、DiT等扩散模型。这一成果证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

研究动机：多模态大模型的技术路线倾向于向大型语言模型（LLM）的技术路线靠拢。研究团队从ViT架构中得到启示，认为最初的ViT架构也能实现相似的性能，这一理念可能同样适用于多模态领域。此外，自回归模型与扩散模型的比较也激发了研究团队提出开源版的基于自回归模型的图像生成模型。

方法：LlamaGen模型的成功归结于三个关键设计：图像压缩/量化器、可扩展的图像生成模型和高质量的训练数据。模型采用了与VQ-GAN相似的CNN架构，并对image tokenizer进行了改进。LlamaGen的架构基于Llama语言模型，包括使用RMSNorm的pre-normalization、SwiGLU和RoPE。在Class-conditional和Text-conditional图像生成模型中，采用了简单的实现方式，即class或text embedding作为起始token，后续的image token通过next-token prediction生成。

实验：LlamaGen在ImageNet benchmark上的FID、IS、Precision和Recall等指标上表现出色，特别是LlamaGen-3B模型在各个参数量级上均优于以前的模型。此外，LlamaGen在Text-conditional图像生成方面也取得了显著成果，第二阶段的训练显著提高了生成图像的视觉质量。

结语：LlamaGen的成功为自回归模型在图像生成领域的应用提供了新的可能性。尽管目前的LlamaGen仍处于发展初期，但未来的改进方向包括更大的分辨率、更高的可控性和视频生成等。从多模态大模型的视角看，自回归模型在理解任务和生成任务上的可行性已被证明，下一步是在同一个模型中联合训练，这需要更多的图文数据和更大的计算资源。

公众号后台回复“数据集”获取100+深度学习各方向资源整理。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Llama也能做图像生成？文生图模型已开源

今日应用

今日话题

文章摘要

文章来源

分布式深度学习框架的前世今生，从 MapReduce 到 Pathways

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

相关文章

暂无评论

热门网址

热门标签