CVPR 2024 | 面向无标注 3D 语义分割的层级式模态内相关性学习方法

AI最新资讯3个月前发布 tree

38 0 0

今日应用

Reecho睿声

Reecho睿声是一款专注于5秒瞬时语音克隆和超拟真语音合成的创新产品，由自研尖端Reecho文生语音大模型驱动，可深入理解文本，瞬时克隆任意声音，并实现与真人无异的超拟真语音合成效果。

今日话题

CVPR 2024 | 面向无标注 3D 语义分割的层级式模态内相关性学习方法

重点标签 tag1、无标注三维语义分割、跨模态迁移学习、层级式点云模态内相关性学习、鲁棒三维视觉表征

文章摘要

摘要：
本文介绍了一种新的层级式点云模态内相关性学习方法，用于解决无标注三维语义分割任务。该方法由中国科技大学陈雪锦教授团队与微软亚洲研究院合作提出，并被收录于计算机视觉顶级会议CVPR 2024。无标注三维语义分割对于三维标注成本高昂或可能遇到未知物体的开放场景至关重要，如自动驾驶、机器人导航和增强现实等。现有方法通常利用跨模态对比学习技术，将预训练的视觉-语言模型在开放世界环境中的物体图像识别能力转移至三维领域，以实现无标注的三维语义分割。然而，这些模型生成的图像伪标签包含较多噪声，给三维视觉模型学习稳定且鲁棒的视觉表征带来了挑战。

研究目标：
本文的目标是在跨模态（文本-图像-点云）迁移学习框架基础上，提出一种新的层级式点云模态内相关性学习方法，从带噪声伪标签的监督中学习鲁棒的三维视觉表征，并提高模型的语义理解能力。该方法在三个层次上挖掘点云模态内的相关性：集合内相关性（Intra-set）、场景内相关性（Intra-scene）以及场景间相关性（Inter-scene），以捕捉场景中多层次的视觉和几何关系，进而辅助模型学习紧凑的三维表征。

研究方法：
层级式模态内相关性学习框架包含三个核心部分：集合内伪标签修正、场景内相关性学习和跨场景相关性学习。首先，利用局部几何相似性来校正伪标签，减少标签中的局部噪声。其次，通过对齐场景内具有相似几何和外观属性的点的特征，降低伪标签噪声带来的影响，促使模型学习到更加紧致的三维表征。进一步地，通过对齐不同场景中具有相似特性的点，降低场景间不一致监督信息的干扰，帮助模型在多样化场景中学习到稳定而统一的特征分布。

实验结果：
在室内数据集ScanNet和室外数据集nuScenes上进行的实验结果显示，该方法在较短的训练时间和最少模型参数下，分别取得了最优（36.6 mIoU）和次优（23.0 mIoU）的语义分割结果。此外，通过理论分析、可视化和消融实验进一步验证了本框架的有效性。

总结与展望：
本文提出的层级式点云模态内相关性学习框架在无标注三维点云语义分割任务中取得了显著的性能提升。尽管如此，作者指出尚未探索图像和文本的模态内相关性，未来计划将层级式模态内相关性学习框架扩展到图像和文本上，以实现更好的无标签三维语义分割性能。通过对模态内相关性的深入挖掘，作者希望进一步提高三维语义分割的准确性和鲁棒性，推动无标注三维语义分割任务的发展。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024 | 面向无标注 3D 语义分割的层级式模态内相关性学习方法

今日应用

今日话题

文章摘要

文章来源

NUS团队提出X-Ray：一种看透物体的3D表示和生成模型!

今日arXiv最热NLP大模型论文：GPT-4理解武林外传中的含蓄表述，达人类水平

相关文章

暂无评论

热门网址

热门标签

CVPR 2024 | 面向无标注 3D 语义分割的层级式模态内相关性学习方法

今日应用

今日话题

文章摘要

文章来源

​NUS团队提出X-Ray：一种看透物体的3D表示和生成模型!

今日arXiv最热NLP大模型论文：GPT-4理解武林外传中的含蓄表述，达人类水平

相关文章

暂无评论

热门网址

热门标签

NUS团队提出X-Ray：一种看透物体的3D表示和生成模型!