今日应用
今日话题
ACM Multimedia 2024 Oral|自动驾驶场景下面向真实世界布局的转变
重点标签 多模态场景适应、深度感知框架、自动驾驶、场景分割、无监督领域自适应
文章摘要
本文介绍了一种创新的多模态场景适应方法,名为DCF(Depth-guided Contextual Filter),该方法被ACM Multimedia 2024选为口头报告。DCF通过深度感知的类别过滤器,将自动驾驶场景中的物体分为近景、中景和远景三类,并过滤掉不符合预定义分布的数据,以实现从虚拟到真实世界分布的转换。这一方法显著提升了小物体类别的性能,并能够灵活迁移至不同模型,取得业界领先的结果。
论文的一作陈牧是澳大利亚悉尼科技大学ReLER实验室的在读博士,导师为杨易教授。陈牧近两年在视觉及多媒体领域的顶级会议上发表了多篇论文,并担任多个ACM/IEEE顶级期刊和会议的审稿人。他的研究兴趣包括计算机视觉、视觉场景理解、视频分割、领域自适应以及以人为中心的场景交互等。
在无监督领域自适应(UDA)的场景分割中,通过将源合成数据中的知识转移到现实世界的目标数据,可以减少手动标注像素级别的需求。现有的方法通常通过简单地复制和粘贴像素来混合源领域和目标领域的数据,但这种方法往往不是最优的,因为它们没有考虑到混合布局与现实场景的匹配程度。DCF框架包含一个深度引导上下文过滤器(DCF)和一个用于上下文学习的跨任务编码器,模拟现实世界的布局,同时自适应地融合两个任务之间的互补特征。
实验结果表明,即使使用伪深度,DCF方法也能在场景自适应基准上取得具有竞争力的性能,例如在GTA→Cityscapes任务上达到77.7 mIoU,在Synthia→Cityscapes任务上达到69.3 mIoU。这证明了DCF在小物体类别上的性能提升以及在不同模型上的灵活性和有效性。
摘要
本文提出了一种深度感知框架,通过显式利用深度估计来混合类别,并在端到端的方式中促进分割和深度学习的两个互补任务。框架包含深度引导上下文过滤器(DCF)和跨任务编码器,DCF模拟现实世界布局,而跨任务编码器自适应地融合两个任务的特征。使用现成的深度估计网络获取伪深度,实验表明即使使用伪深度也能取得竞争力的性能。
引言
语义分割是机器视觉中的基本任务,现有模型通常需要大规模高质量标注数据集。获取这类数据代价高昂且耗时,因此研究者转向无监督领域自适应(UDA)以应对不同领域间的差异。本文提出的深度感知框架通过观察现实世界中的深度分布,发现语义类别在深度图中可以轻松分离,从而提出了一个新的方法。
方法
问题定义中,源域使用合成数据,目标域为真实世界数据。DCF利用深度信息去除与现实世界目标训练样本不匹配的非现实类别。多任务场景适应框架包括高分辨率语义编码器和跨任务共享编码器,整合并优化深度信息的融合,改进最终的语义预测。
实验
在GTA→Cityscapes和SYNTHIA→Cityscapes两个场景适应设置上评估框架。实验结果表明,DCF方法在小物体类别上的性能提升以及在不同模型上的灵活性和有效性。
结论
本文提出的深度感知场景自适应框架有效地利用深度指导,增强数据增强和上下文学习。通过将深度感知框架集成到现有方法中,在两个广泛使用的基准测试中实现了最先进的性能,并在小规模类别上取得了显着的改进。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台