今日应用
今日话题
CVPR’24|无需微调,室内室外,多模态输入全搞定!L-MAGIC:让图像扩散模型生成高质量360度场景
重点标签 360度场景生成、L-MAGIC技术、英特尔研究院、多模态输入、高质量生成
文章摘要
极市导读:美国英特尔研究院的Zhipeng Cai等人提出了一种名为L-MAGIC的技术,该技术利用语言模型控制图像扩散模型,实现了高质量、多模态、零样本泛化的360度场景生成。L-MAGIC的实时演示已被选为英特尔公司2024年的五大技术突破之一,并在ISC HPC 2024上展出。
360度场景生成是计算机视觉领域的一个重要任务,但现有方法存在局限性,如无法有效生成多样的360度视角,或者在360度闭环中出现明显的分界线。为了解决这些问题,L-MAGIC技术通过结合语言模型和图像扩散模型,实现了高质量的360度场景生成。该技术的核心在于使用语言模型自动控制扩散模型,以生成多样化的全局场景结构。
L-MAGIC技术的工作流程包括:通过自然图像连接不同模态的输入,使用条件扩散模型生成自然图像,然后通过迭代变形和修复来生成360度场景的多个视角。此外,L-MAGIC还能够生成沉浸式视频和三维点云,无需微调即可保持语言及扩散模型的泛化性。
实验结果表明,L-MAGIC在图像到360度场景生成和文字到360度场景生成任务中均达到了最先进的水平。该技术能够生成具有多样化360度场景结构的全景图,并能够平滑地完成360度闭环。L-MAGIC还能够接受多样化的输入,如深度图和设计草图等。
作者蔡志鹏博士是美国英特尔研究院的研究员,他的研究兴趣包括鲁棒视觉感知、持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇,其中5篇文章被选为顶级会议的口头或特邀报告。
L-MAGIC技术的项目主页、论文、代码、视频介绍和相关博客链接已提供,感兴趣的读者可以进一步了解该技术的详细信息。同时,极市平台也提供了多模态大模型超详细解读专栏、搞懂Tranformer系列、ICCV2023论文解读等技术专栏,以及Neural ODE和Transformer连环18问等技术综述,帮助读者深入了解相关技术。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台