今日应用
今日话题
CVPR’24|LiDAR Diffusion:当扩散模型从图像打入LiDAR场景!
重点标签 tag1、LiDAR、扩散模型、自动驾驶、条件生成
文章摘要
摘要:
在自动驾驶和机器人技术领域,条件LiDAR场景生成是一个重要的研究方向。最近,作者提出了一种名为LiDAR扩散模型(LiDAR Diffusion Models)的新型生成器,它能够将多种条件作为输入,如边界框、相机图像和语义图,以生成逼真的LiDAR场景。该模型利用range images作为LiDAR场景的表示,通过在扩散过程之前对LiDAR场景编码至一个潜式空间中,以及结合Patch-based下采样策略,有效地合成了高质量的LiDAR场景。实验结果表明,LiDAR Diffusion在无条件LiDAR生成中实现了state-of-the-art性能,并在多种条件下生成相应的LiDAR场景。
详细总结:
1. 背景与动机: 近年来,可控生成模型在生成具有视觉吸引力且高度逼真的图像方面取得了显著进展,其中扩散模型(Diffusion Models)因其出色的性能而成为最流行的方法之一。作者提出了一个问题:是否可以将可控扩散模型应用于自动驾驶和机器人技术的LiDAR场景生成,以生成高质量的标记数据或从摄像头捕捉的图像生成相应的3D场景。
2. 相关工作: 作者回顾了基于点的扩散模型LiARGen,该模型虽然能够生成LiDAR场景,但存在背景嘈杂和物体模糊的问题。此外,直接应用潜在扩散模型(Latent Diffusion Models)来生成LiDAR场景在定性和定量上都未能达到满意的性能。
3. LiDAR扩散模型: 为了实现条件LiDAR真实场景生成,作者提出了一种基于曲线的生成器LiDAR Diffusion Models。该模型能够将多种条件作为输入,利用range images作为LiDAR场景的表示,并通过以下三个关键组成部分来提高LiDAR数据的真实性:
– 图案真实性: 利用曲线压缩提取LiDAR中点的曲线形态。
– 几何真实性: 引入基于点的坐标监督,使自动编码器能够理解场景级几何。
– 物体真实性: 结合Patch-based下采样策略,扩大感受野以捕获视觉上较大物体的完整上下文。
4. 实验结果: LiDAR Diffusion在无条件LiDAR生成中实现了state-of-the-art性能,与LiARGen相比,加速了107倍,并支持任意类型的基于image和基于token的条件为输入。
5. 技术专栏与资源: 文章还提供了一些技术专栏和资源链接,如多模态大模型超详细解读专栏、搞懂Tranformer系列、ICCV2023论文解读等,以及极市直播和极视角动态等信息。
6. 技术综述: 文章最后提供了一些技术综述,如Neural ODE的详解和Transformer连环18问,以及如何通过点击阅读原文进入CV社区以获取更多技术干货。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台