今日应用
今日话题
MAR(Masked AutoRegressive): 破除封建迷信——谁说自回归图像生成一定需要 VQ的!
重点标签 自然语言处理、MAR模型、VQ技术、自回归网络、扩散模型
文章摘要
MAR模型的核心思想是利用扩散模型来建模每个像素的分布,而不是依赖于VQ技术。在扩散模型中,像素被视为连续值的token,通过自回归网络辅助生成条件变量,进而由扩散模型生成对应的像素。这种方法不仅提高了模型的效率,还减少了训练难度,因为VQ中的量化向量采样是不可导的,而MAR模型中的连续值向量可以直接进行梯度下降。
在训练MAR模型时,首先将图像编码到潜在空间(latent space),然后通过随机掩码(random masking)选择一部分像素作为已知信息,其余像素作为待预测的目标。接着,自回归网络根据已知像素预测未知像素的条件变量,这些条件变量随后输入到扩散模型中,用于生成未知像素。训练过程中,模型会计算一个特殊的损失函数,称为“Diffusion Loss”,它能够同时训练扩散模型和自回归网络。
推理阶段,MAR模型直接在潜在空间进行操作,通过自回归地生成所有像素的表示,然后解码回图像空间。整个过程不需要VQ,简化了模型的复杂性,并提高了生成效率。
此外,MAR模型还引入了双向注意力机制,允许像素之间的信息交流不受单向注意力的限制,从而更好地捕捉像素间的相互关系。通过这种方式,MAR模型能够更有效地进行图像生成,同时保持自回归模型的优势。
总的来说,MAR模型为自回归图像生成提供了一种新的思路,它避免了VQ技术带来的限制,提高了模型的性能和灵活性。通过扩散模型和自回归网络的结合,MAR模型在图像生成任务中展现出了巨大的潜力。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...