图像生成别止步于扩散模型,自回归模型也很好用!LlamaGen:实现414%推理加速!

AI最新资讯3周前发布 tree
13 0 0

今日应用


今日话题


图像生成别止步于扩散模型,自回归模型也很好用!LlamaGen:实现414%推理加速!
图像生成别止步于扩散模型,自回归模型也很好用!LlamaGen:实现414%推理加速!
 

重点标签 LlamaGen自回归模型图像生成性能图像分词器推理速度优化类条件图像生成

文章摘要


LlamaGen是一种自回归模型,由香港大学和字节跳动共同开发,其在图像生成性能方面取得了显著成果。该模型通过重新检查图像分词器的设计空间、图像生成模型的缩放性能和训练数据质量,证明了原始自回归模型在适当缩放下能够达到最先进的图像生成性能。具体来说,LlamaGen包括以下几个关键点:

1. 图像分词器:LlamaGen采用了一个下采样率为16的图像分词器,该分词器在重建质量上达到了0.94 rFID,且在ImageNet benchmark的codebook使用率达到了97%。这表明离散表征不再是图像重建的瓶颈。

2. 可扩展的图像生成模型:LlamaGen开发了一系列参数量从111M到3.1B的class-conditional图像生成模型,这些模型在ImageNet 256×256 benchmarks上得到了2.18的FID,超过了LDM、DiT等扩散模型。

3. 高质量训练数据:LlamaGen首先在LAION-COCO的50M子集上训练具有775M参数的文本条件图像生成模型,然后在10M内部高美学质量图像上进行微调,展示了在视觉质量和文本对齐方面的竞争力。

4. 推理速度优化:LlamaGen采用了vLLM服务框架来优化图像生成模型的推理速度,实现了326% – 414%的加速。

LlamaGen的总览显示,输入图片通过图像分词器量化成离散tokens,然后通过基于Transformer的自回归模型生成图像。在图像分词器部分,作者使用了Quantized-Autoencoder架构,并针对codebook设计、向量维度和码本大小进行了优化。在自回归模型生成图像部分,LlamaGen基于Llama架构,使用了RMSNorm、SwiGLU激活函数和旋转位置编码RoPE,并探索了Class-conditional image generation和Text-conditional image generation。

此外,LlamaGen还研究了模型缩放、推理速度优化以及图像生成实验结果,证明了自回归模型在图像生成方面的潜力。通过与扩散模型的比较,LlamaGen展示了其在不同指标上的优势,特别是在class-conditional ImageNet 256×256 benchmark上的表现。

总的来说,LlamaGen通过其创新的设计和优化,为图像生成领域提供了一种新的自回归模型方法,有望推动该领域的进一步发展。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...