深度解读何恺明团队新作:不用向量离散化的自回归图像生成

AI最新资讯2个月前发布 tree
27 0 0

今日应用


今日话题


深度解读何恺明团队新作:不用向量离散化的自回归图像生成
深度解读何恺明团队新作:不用向量离散化的自回归图像生成
 

重点标签 自回归模型图像生成扩散模型掩码自回归Transformer

文章摘要


在本文中,作者提出了一种新的自回归图像生成模型,该模型通过使用扩散模型来建模图像词元的分布,从而提高了生成能力。自回归模型在自然语言处理(NLP)中取得了巨大成功,但在图像生成方面却面临挑战。传统自回归模型依赖于向量离散化(Vector Quantization, VQ)技术来将连续的图像数据转换为离散的词元,但这种方法存在局限性。为了解决这一问题,作者提出了一种不依赖VQ的自回归模型,该模型在ImageNet图像生成指标上取得了接近最先进的结果。

知识回顾与自回归图像生成
自回归模型是一种生成模型,它根据已生成的内容递归预测下一项内容。在文本生成中,这种模型可以很容易地预测下一个词元。然而,在图像生成中,由于图像是二维的且颜色值是连续的,自回归模型需要将连续值离散化。通常,这通过VQ自编码器实现,但这种方法存在训练难度大和重建效果不佳的问题。

抛弃VQ,拥抱扩散模型
作者提出使用扩散模型来代替传统的类别分布,以建模下一个像素值的分布。扩散模型是一种强大的生成模型,能够拟合复杂的图像分布。通过这种方式,模型可以使用连续值来表示图像,从而更容易生成内容丰富的图像。

模型配置与实验结果
本工作采用了两阶段的生成方法,其中第一阶段使用自编码器来压缩图像,第二阶段使用改进的自回归模型。实验结果表明,新模型在ImageNet图像生成任务上的FID和IS指标上取得了优异的表现,超越了大多数其他模型。

总结
本文提出的自回归图像生成模型通过使用扩散模型来建模像素值的分布,有效地解决了传统自回归模型在图像生成中的局限性。这种方法不仅提高了生成能力,还在ImageNet图像生成指标上取得了接近最顶尖的结果。此外,作者还引入了掩码自回归模型来进一步提升生成能力。这项工作不仅在科研上具有创新性,而且在实际应用中也具有潜在价值。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...