CVPR’24｜无需微调，室内室外，多模态输入全搞定！L-MAGIC：让图像扩散模型生成高质量360度场景

AI最新资讯10个月前发布 tree

130 0 0

今日应用

低端影视

都是优质的且最新的电影资源，还要apple TV+里的最新影视、连载剧集，本季新番，恐怖片、各种综艺，太多了，说不完了，自己赶紧打开看看吧！

今日话题

CVPR’24｜无需微调，室内室外，多模态输入全搞定！L-MAGIC：让图像扩散模型生成高质量360度场景

重点标签 360度场景生成、L-MAGIC技术、英特尔研究院、多模态输入、高质量生成

文章摘要

极市导读：美国英特尔研究院的Zhipeng Cai等人提出了一种名为L-MAGIC的技术，该技术利用语言模型控制图像扩散模型，实现了高质量、多模态、零样本泛化的360度场景生成。L-MAGIC的实时演示已被选为英特尔公司2024年的五大技术突破之一，并在ISC HPC 2024上展出。

360度场景生成是计算机视觉领域的一个重要任务，但现有方法存在局限性，如无法有效生成多样的360度视角，或者在360度闭环中出现明显的分界线。为了解决这些问题，L-MAGIC技术通过结合语言模型和图像扩散模型，实现了高质量的360度场景生成。该技术的核心在于使用语言模型自动控制扩散模型，以生成多样化的全局场景结构。

L-MAGIC技术的工作流程包括：通过自然图像连接不同模态的输入，使用条件扩散模型生成自然图像，然后通过迭代变形和修复来生成360度场景的多个视角。此外，L-MAGIC还能够生成沉浸式视频和三维点云，无需微调即可保持语言及扩散模型的泛化性。

实验结果表明，L-MAGIC在图像到360度场景生成和文字到360度场景生成任务中均达到了最先进的水平。该技术能够生成具有多样化360度场景结构的全景图，并能够平滑地完成360度闭环。L-MAGIC还能够接受多样化的输入，如深度图和设计草图等。

作者蔡志鹏博士是美国英特尔研究院的研究员，他的研究兴趣包括鲁棒视觉感知、持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇，其中5篇文章被选为顶级会议的口头或特邀报告。

L-MAGIC技术的项目主页、论文、代码、视频介绍和相关博客链接已提供，感兴趣的读者可以进一步了解该技术的详细信息。同时，极市平台也提供了多模态大模型超详细解读专栏、搞懂Tranformer系列、ICCV2023论文解读等技术专栏，以及Neural ODE和Transformer连环18问等技术综述，帮助读者深入了解相关技术。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR’24｜无需微调，室内室外，多模态输入全搞定！L-MAGIC：让图像扩散模型生成高质量360度场景

今日应用

今日话题

文章摘要

文章来源

CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4：动态与稀疏操作的高效融合

Mamba在点云分析中是否有潜力替代Transformer？PointMamba迎来更新！

相关文章

暂无评论

热门网址

热门标签

CVPR’24｜无需微调，室内室外，多模态输入全搞定！L-MAGIC：让图像扩散模型生成高质量360度场景

今日应用

今日话题

文章摘要

文章来源

CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4： 动态与稀疏操作的高效融合

Mamba在点云分析中是否有潜力替代Transformer？PointMamba迎来更新！

相关文章

暂无评论

热门网址

热门标签

CVPR 2024 Highlight｜一举实现多个CV任务SOTA！DCNv4：动态与稀疏操作的高效融合