何恺明新工作！加入MIT的首篇论文！打破自回归图像生成瓶颈，奥赛金牌得主参与！

AI最新资讯9个月前发布 tree

106 0 0

今日应用

YOO简历

"YOO简历 - 智能匹配岗位的个人求职简历模板，免费下载，助您快速踏入职业成功之路！

今日话题

何恺明新工作！加入MIT的首篇论文！打破自回归图像生成瓶颈，奥赛金牌得主参与！

重点标签 何恺明、自回归图像生成、扩散模型、掩码自回归、AI技术突破

文章摘要

摘要：
近日，深度学习领域的杰出研究者何恺明及其团队推出了一项突破性研究，成功地将自回归模型从矢量量化的束缚中解放出来，实现了连续值生成图像的创新。这项研究与Google DeepMind和清华大学合作完成，首次提出了无需矢量量化的自回归图像生成方法，颠覆了传统自回归生成技术的认知。

何恺明于2024年加入麻省理工学院(MIT)，在电气工程与计算机科学系担任教职。团队的研究成果在AI研究领域引起了广泛关注。论文题目为《Autoregressive Image Generation without Vector Quantization》，已在arXiv上发表，链接为：[Autoregressive Image Generation without Vector Quantization](https://arxiv.org/abs/2406.11838)。

扩散损失引入自回归图像生成：
自回归模型在自然语言处理中非常成功，但在图像生成等连续值领域，通常需要将图像数据离散化。何恺明团队引入了扩散损失（Diffusion Loss），使自回归模型能够直接在连续空间上建模。自回归模型学习不同token间的关联性，而扩散过程通过损失函数学习单个token的概率分布。

统一自回归和掩码生成模型的创新框架：
团队还提出了一种统一标准自回归模型（AR）和掩码生成模型（MG）的广义自回归框架，即掩码自回归（MAR）模型。该模型利用双向注意力机制，在随机顺序下同时预测多个输出标记，同时保持自回归的特性，显著提高了生成速度。

自回归+扩散 vs 自回归 vs 扩散：
MAR模型在使用扩散损失后，能够更快速且更准确地生成图像。在ImageNet 256×256数据集上的FID得分小于2.0，体现了其高效性和高质量。与当前的领先模型相比，此方法也毫不逊色。

总结：
何恺明团队的研究成果表明，自回归模型或其拓展版本在图像生成领域具有很大的潜力，不必受限于向量量化表示，可以更有效地处理连续值表示的数据。这一突破为AI领域的未来发展提供了新的可能性。

此外，极市平台还提供了多模态大模型超详细解读专栏、搞懂Tranformer系列、ICCV2023论文解读等技术专栏，以及Neural ODE、Transformer连环18问等技术综述，帮助读者深入了解AI技术的最新进展。同时，极市平台也欢迎高校师生申报教育部产学合作协同育人项目，共同推动AI技术的发展。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

何恺明新工作！加入MIT的首篇论文！打破自回归图像生成瓶颈，奥赛金牌得主参与！

今日应用

今日话题

文章摘要

文章来源

太全了！苹果上新视觉模型4M-21，搞定21种模态

视觉 AI 的「Foundation Model」，已经发展到哪一步？丨CVPR 2024 现场直击

相关文章

暂无评论

热门网址

热门标签