Mamba与元学习双管齐下,打造新的语义补全方案!

未分类2个月前发布 tree
28 0 0
↑ 点击蓝字 关注极市平台
Mamba与元学习双管齐下,打造新的语义补全方案!
作者丨Yansong Qu等
来源丨自动驾驶之心
编辑丨极市平台

极市导读

 

本文提出了一种新的场景语义补全(SSC)方案,该方案结合了Mamba模型和元学习,旨在提高自动驾驶车辆在感知复杂驾驶场景时的能力。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

写在前面 && 笔者理解

传统的自动驾驶框架下,现有感知而后又规控,所以可以说感知在这套框架下扮演着非常基础性的工作。然而,动态交通参与者的突发性和可变性,加上静态对象的较大的范围和距离,给自动驾驶车辆在感知复杂驾驶场景时带来了不小的挑战。而在一众提高感知能力的方法中,场景语义补全(Scene Semantic Completion,SSC) 作为一种同时推理驾驶场景的几何形状和语义的技术脱颖而出。如图1所示,与传统的依赖于单个目标检测和跟踪的感知任务不同,SSC通过填补部分或遮挡传感器输入中缺失的信息,提供了对环境更全面的理解。当传感器如激光雷达或摄像头被其他车辆或环境元素遮挡时,这种能力尤其关键。

Mamba与元学习双管齐下,打造新的语义补全方案!

不过,收集和标注大规模真实世界数据集是一个昂贵且劳动密集型的过程,而且能够收集到多样的真实世界交通情况也是一件比较有挑战的事情,比如一些像是车辆故障 or 行人碰撞的等长尾场景。所以,越来越多的研究人员愿意转向高保真的模拟器,如:CARLA等,来生成一些数据,虽然这些合成的数据与真实世界的数据还是存在一些domain gap。

当前的SSC解决方案通常依赖于 3D CNNs 来编码点云或RGB-D图像等输入数据,这些数据包含了丰富的空间信息。然而,3D CNNs在捕获细粒度场景表示或建模3D块之间的长序列关系方面有些许挑战,而这两者恰恰对于SSC任务至关重要。缺乏时间建模限制了它们跟踪环境动态变化的能力。

  • 论文链接:https://arxiv.org/pdf/2411.03672v1

作者这篇工作旨在解决两个关键gap:

  • 需要有效利用模拟数据以快速部署在真实世界场景中
  • 开发一种新的骨干网络,能够捕获长序列依赖关系和高分辨率空间信息。

所以,相应的,这篇工作的主要贡献主要总结如下:

  • 双相训练与元学习 作者采用双相训练策略,通过模型无关的元学习(MAML),在源域(由模拟器生成的数据集)上预训练模型,并在目标域(真实世界数据集)上进行微调。这种方法通过在微调过程中快速学习特定于域的特征,加速了对真实世界环境的适应。通过跨多个域的泛化,MAML减少了过拟合并提高了模型在新情况下的鲁棒性。
  • 用于长序列建模的新型骨干网络 作者引入了一种新的骨干架构,该架构集成了Mamba(一种选择性的状态空间模型(SSM)),可变形卷积和大核注意(DLKA)。Mamba提供了一种结构化机制,用于随时间处理序列数据,确保有效地捕获3D体素网格内的长距离依赖关系。可变形卷积允许模型动态调整接受域,增强了检测不同尺度物体的能力。同时,D-LKA增强了网络的注意力机制,专注于场景的关键区域,这提高了空间意识和决策能力。

相关工作

3D semantic scene completion for autonomous driving

SSC 任务就是从不完整的传感器输入中,推断大规模户外环境的几何形状和语义。它提供了对驾驶场景的完整理解,并预测缺失的元素,这对于自动驾驶至关重要。

Roldao 等人提出了 LMSCNet,这是一个多尺度网络,结合了 2D U-Net 主干和 3D 分割头。这种设计减少了全 3D 卷积的计算负担,同时保持了竞争性能。同样,Yan 等人引入了一个多任务学习框架,其中语义分割(SS)和 SSC 被联合训练。通过在两个任务之间共享特征,模型改进了几何和语义预测。这些方法使用单目 RGB 摄像头与 LiDAR 相比,可以降低部署成本。然而,在这种像素到点的转换过程中,可能会在 3D 空间的未占用区域引入虚假特征,降低模型性能。为了解决这些限制,最近的研究集中在改进像素到点的转换和提炼特征融合技术。一些方法将深度估计纳入 RGB 输入,而其他方法使用注意力机制来选择性增强相关特征。

Deformable large kernel attention

学习 SSC 任务中不同体素之间相关性的两种主要方法:

第一种方法使用大核和堆叠多层的 3D 卷积,使模型能够捕获 3D 空间中的长距离依赖。然而,随着层数的增加,计算成本呈指数增长,大量的参数需要更多的内存和训练时间。这些限制使其在实时应用中不切实际,尤其是在效率至关重要的自动驾驶场景中。

第二种方法使用自注意力机制,有选择地关注相关特征。自注意力在模拟远距离体素之间的关系方面提供了灵活性。然而,自注意力倾向于忽视场景的固有 3D 结构,将输入数据更多地视为展平的序列而不是结构化的空间信息。此外,自注意力不会动态适应通道维度的变化,限制了其在驾驶环境中表示复杂变换的能力。这些限制,加上基于注意力模型的计算开销,为在资源受限的系统中部署它们提出了挑战。

为了解决这些问题,研究人员探索了可变形卷积,它引入了额外的偏移量,允许网络自适应地重新采样空间特征。这种方法通过关注输入最相关的区域来增强模型处理几何变化的能力,在复杂场景中的鲁棒性得到了提高。

Mamba on 3D semantic scene completion

Mamba 的精简架构减少了通常与 Transformer 相关的计算开销,使其非常适合需要快速推理的应用。它采用了轻量级设计,用更简单的线性变换替换了多头自注意力机制,同时仍然捕获输入元素之间的基本关系。

Zhu 等人开发了一个基于 Mamba 的通用视觉主干,用于模拟图像块之间的关系,展示了 Mamba 在计算机视觉任务中的潜力。通过有效地编码图像区域之间的关系,Mamba 为视觉处理中基于 Transformer 的模型提供了实用的替代方案。此外,Mamba 在 3D 建模任务中可能更加有效,其中 3D 块的序列比 2D 图像块长得多,也复杂得多。这一洞见鼓励研究人员探索将 Mamba 能力扩展到 2D 应用之外的新方法。

方法论

之前的研究表明,在多任务学习框架中结合语义分割(SS)和场景语义补全(SSC)可以提升两项任务的性能,其中 SS 提供详细的语义特征,补充 SSC 捕获的几何理解,使得两个模块都能从共享的特征提取中受益。同时,一些方法通过使用历史 LiDAR 扫描作为辅助监督来增加语义标签的密度。尽管这些方法提高了模型捕获细粒度语义的能力,但依赖历史扫描增加了计算开销,使得这些解决方案难以在实时自动驾驶场景中部署。

作者的方法不同,将 SS 作为预训练任务来学习 SSC 的元知识。预训练步骤帮助模型更好地泛化于不同域,准备处理真实世界的复杂性,如遮挡和传感器噪声。为了进一步增强监督,作者从附近的 CAV 聚合语义信息,提供更密集的标签,扩展到更大的距离。这种从多辆车聚合的语义信息解决了单个传感器的局限性,后者通常受到数据稀疏和遮挡的限制。它允许模型更有效地推理不完整的区域,从而获得更全面的场景理解。

问题表述

作者将 3D SSC 问题定义如下: 给定一个稀疏的 3D 体素网格 , 其中 分别表示驾驶场景的高度、宽度和深度。每个体素 中可以是 0 或 1 , 表示物体的占用情况, 其中 是体素索引。3D SSC 的目标是学习一个模型 , 为 中的每个 分配一个语义标签,得到 ,其中 是对应位置的标签。这些标签属于集合 ,其中 是语义类别的数量, 表示一个自由标签。

双相训练策略

基于 MAML,作者提出的方法,MetaSSC的工作流程如图 3 所示,包括两个主要阶段:元预训练和适应。这些阶段使得 SSC-MDM 模型能够将知识从模拟环境转移到真实世界驾驶场景,提高 3D SSC 任务的性能。

Mamba与元学习双管齐下,打造新的语义补全方案!

元预训练阶段(图 3-部分 A)旨在通过从模拟数据中学习,为跨不同任务的泛化做准备。源数据集 OPV2V 和 V2XSIM 提供了一系列 V2V 和 V2X 场景,帮助模型为动态环境开发鲁棒特征。任务从这些数据集中采样,每个任务包括一个支持集和一个查询集。支持集用于内循环中优化任务特定的参数,而查询集评估模型的泛化性能。

元学习器用一组参数 初始化 SSC-MDM 主干, 这些参数被分配给每个任务。给定 个任务 从源数据集 , 对于每个任务 , 支持集 在内循环中使用,其中执行多个 k 步梯度下降。这些小步更新使模型能够快速适应任务特定的特征,提高其处理复杂场景的能力。在每一步中, 应用数据增强(Aug)来增强学习特征的鲁棒性和泛化能力。

具体元预训练的过程可以详见 Algorithm1:

Mamba与元学习双管齐下,打造新的语义补全方案!

在适应阶段(图 3-部分 B),元训练的 SSC MDM 模型被适应到目标真实世界数据集,SemanticKITTI。这个阶段微调元学习参数,使其与真实世界条件对齐,解决诸如传感器噪声、遮挡和环境变异性等挑战。允许模型以多种分辨率(1:1、1:2、1:4 和 1:8)生成输出,使其能够捕获驾驶环境的细节和大规模特征。

多尺度输出对于平衡局部精度和全局场景理解至关重要。例如,像行人这样的小物体在更细的尺度上被检测,而像道路和建筑物这样的大物体在更粗的分辨率上被识别。这种分层输出结构确保了模型即使在具有挑战性的真实世界场景中也能提供准确和全面的场景补全。

适应阶段利用元学习参数作为一个强大的起点,最小化了对广泛重新训练的需求。这种高效的迁移学习框架加速了 SSC-MDM 模型在真实世界设置中的部署,确保了高性能和最小的计算开销。适应阶段的过程被作者总结进 Algorithm2中:

Mamba与元学习双管齐下,打造新的语义补全方案!

D-LKA-M 架构

D-LKA-M 架构如图 4 所示,源自 D-LKA 网络,集成了 Mamba 块,有效地处理 3D 块的长序列建模。该设计遵循与 LMSCNet 类似的层次结构,类似于 U-Net 架构。层次结构使模型能够进行多尺度处理,允许模型捕获来自 3D 场景的细粒度细节和更广泛的上下文信息。

Mamba与元学习双管齐下,打造新的语义补全方案!

模型通过一系列 3D 模块处理输入数据,不同阶段进行下采样和上采样操作。每个下采样层减少空间维度,压缩输入同时保留关键信息,每个上采样层重建更高分辨率的输出。这种结构使其能够以多种降低的分辨率输出结果。这在 SSC 任务中特别有用,因为它在多个尺度上提供预测,提高了 SSC 的准确性。

在输入阶段使用 Patch 嵌入模块将原始 3D 数据划分为可管理的部分。嵌入在 D-LKA 模块中的 Mamba 块增强了网络对 3D 体素网格长距离依赖关系的建模能力,这对于理解复杂驾驶环境至关重要。这种集成确保了模型在计算效率和准确性之间取得平衡,使其适合实时应用。

可变形卷积

可变形卷积引入了一个偏移场来自适应调整卷积核,这在自动驾驶中特别重要,因为行人、车辆和障碍物等对象通常不符合固定形状或位置。传统的固定核卷积难以有效捕获这种不规则性,限制了模型准确感知复杂驾驶环境的能力。可变形卷积通过动态修改每个输入位置的感受野来解决这个问题。该机制可以总结如下:

其中 表示可变形注意力机制, 表示层归一化。

在可变形注意力中, 对于输入特征图 中的任何位置 , 学习到的偏移 被添加到感受野中,定义为 。这种机制允许模型动态转移其焦点, 超出固定空间区域。这里, 枚举了规则体素网格中的位置。在位置 的可变形卷积输出由以下给出:

由于偏移 通常是分数, 需要插值来计算非整位置的特征值。位置 处的插值值计算如下:

总之,可变形卷积为自动驾驶提供了显著优势,通过提高模型对复杂场景的理解能力,这对于构建在真实世界环境中安全可靠的自动驾驶系统至关重要。

大核注意力

大核注意力(LKA)引入了一种新的方法来有效地捕获局部和全局上下文信息。与传统卷积不同,传统卷积难以平衡局部细节和大感受野,LKA将大 核卷积分解为多个阶段,每个阶段设计用于处理特征提取的不同方面,同时保持计算效率。具体来说,大核卷积被分解为 深度可分离膨胀卷积, 膨胀率为 深度可分离卷积, 以及一个 通道卷积。

这种分解不仅以线性复杂度实现了大感受野,还提供了动态处理能力,使其非常适合于自动驾驶中的 3D SSC 等复杂任务。LKA 的数学公式可以表示为:

其中 是输入特征, 表示深度可分离卷积, 表示深度可分离膨胀卷积, 是通道卷积。LKA 的最终输出是通过注意力权重 和输入特征 之间的逐元素乘积获得的:

其中 表示注意力权重, 表示逐元素乘积。此操作允许模型为不同的空间和通道特征分配不同的重要性,从而提高其关注输入的重要区域的能力。

作者使用可变形卷积和大核注意力作为基本模块(D-LKA)。可变形卷积提供了自适应的感受野来处理不规则的对象形状,而 LKA 确保了局部细节和全局上下文的有效处理。D-LKA 结合增强了模型在 3D 体素网格内准确捕获复杂空间关系的能力。

总之,LKA 与可变形卷积的集成构成了作者提出模型的主干。这个模块在使模型在自动驾驶场景中有效执行中起着至关重要的作用,其中局部细节和大规模上下文都是必需的。

Mamba

与 Vision Mamba不同,作者的方法直接处理来自 D-LKA 块的特征,并与 Mamba 块一起处理,以增强 3D 体素网格的长序列建模。这种直接集成使作者的模型能够有效地捕获来自 D-LKA 的局部特征和通过 Mamba 块的长距离依赖关系,从而实现更强大的自动驾驶场景理解。这个过程的数学公式表示为:

其中 表示从 D-LKA 块提取的输入特征,Mamba 表示 Mamba 块。Mamba 块处理序列数据的能力确保了模型有效地捕获 3D 场景内复杂的空间关系,这对于 SSC 任务至关重要。

一旦特征通过 Mamba 块处理,它们会通过前馈网络(FFN)和卷积层进一步细化。最终输出 计算如下:

其中 表示卷积层, 是前馈网络。

总而言之,D-LKA 和 Mamba 模块的集成使模型能够有效地执行局部和长序列建模,同时还能确保局部细节和全局背景之间的平衡,从而做出准确的决策。

实验及结论

作者在 SemanticKITTI上进行了实验,将数据分割为训练、验证和测试集,确保与以前研究的一致性。

与Baseline模型的比较

如表 1 所总结。所提出的 SSC-MDM 模型在场景补全的交并比(IoU)中排名第一,在精确度中排名第二。它还在 SSC 的平均交并比(mIoU)中排名第二,表明其在场景补全和语义场景补全任务中的优越性能。

Mamba与元学习双管齐下,打造新的语义补全方案!

然而,SSC-MDM 的召回率低于 TS3D,这可以归因于 TS3D 使用额外的 RGB 输入。这一差异突出了 RGB 辅助性能与像 SSC-MDM 这样的纯 LiDAR 模型之间的权衡。作者的方法在常见类别如道路和建筑中特别出色,超过了其他模型。然而,对于出现频率较低的类别,其性能相当或略低,这突显了解决数据集中类别不平衡问题的必要性。

消融分析

该分析旨在通过比较不同的变体架构,隔离和评估所提出模型的关键组件的影响。这四个变体模型,称为 Multi-scaled、D-LKA、Transfer 和 Mamba,描述如下:

  1. Multi-scaled: LMSCNet 作为作者分析的基础模型。这是一个轻量级模型,它在多个分辨率上学习特征,利用多尺度连接捕获细粒度和广泛的上下文信息。作者从这个模型开始逐步改进,以测试不同组件对最终性能的贡献。
  2. D-LKA: 在这个变体中,作者用可变形大核注意力网络替换了 LMSCNet 主干,以增强特征提取。这一修改旨在提高网络更准确预测复杂 3D 场景的能力。
  3. Transfer: 这个变体采用了前面讨论的双相训练策略,以提高模型性能并减少训练时间。通过在源数据集上预训练并在目标数据集上微调,”Transfer” 利用来自模拟域的知识来增强真实世界性能,确保更快的收敛和改进的泛化能力。
  4. Mamba: 在这个最终变体中,作者将 Mamba 块集成到 D-LKA 网络中,以处理 3D 块的长序列建模。Mamba 的优势在于其能够有效地处理序列依赖性,这进一步增强了模型对 3D 空间结构的理解,以实现 SSC。
Mamba与元学习双管齐下,打造新的语义补全方案!

消融分析的结果总结在表 2 中。随着作者从 “Multi-scaled” 进展到 “Mamba”,所有指标的性能要么提高要么保持一致,引入 DLKA 时召回率的下降除外。D-LKA 阶段召回率的下降可以归因于模型复杂性和泛化能力之间的权衡,因为 DLKA 专注于学习更丰富的特征,但可能需要更多的数据以获得最佳的召回率。总体而言,结果证实了作者工作中使用的技术对 SSC 通常是有益的,显示出在各种性能指标上的一致改进。

Mamba与元学习双管齐下,打造新的语义补全方案!

此外,作者在图 6 中可视化了四个模型在 SemanticKITTI 验证数据集上的 mIoU 训练周期。”Multi-scaled” 和 “D-LKA” 变体直接在目标数据集上训练,而 “Transfer” 和 “Mamba” 变体在源数据集上预训练并在目标数据集上微调。值得注意的是,在微调过程中,仅在第一周期微调输出层以稳定早期训练。可视化清楚地表明,双相训练策略加速了收敛,并在较少的训练周期内获得了更好的性能。这突出了转移预训练知识并在较小的目标数据集上微调以有效实现理想结果的有效性。

结论

本研究提出了一个基于元学习的框架,用于解决自动驾驶中的场景语义补全(SSC)任务,重点关注从模拟环境到真实世界应用的知识转移。通过利用从模拟环境中获取的元知识,框架减少了对大规模真实世界数据的依赖,显著降低了部署成本并缩短了开发周期。本框架的关键创新在于其集成了大核注意力(LKA)机制和 Mamba 块到主干模型中。这些组件使模型能够有效地从 3D 体素网格提供的稀疏和不规则数据中提取多尺度、长序列关系。LKA 机制允许模型通过扩大感受野来捕获局部细节和全局上下文,而不增加计算复杂性。同时,Mamba 块提高了模型处理 3D 块序列依赖性的能力,通过捕获驾驶场景中的时间空间关系来增强 SSC 任务。

总之,元学习、先进的注意力机制和双相训练的结合为自动驾驶中的 SSC 提供了一种可扩展且鲁棒的解决方案。所提出的框架不仅提高了模型处理复杂和动态驾驶环境的能力,还降低了部署成本。这些结果为 SSC 的未来进步铺平了道路,并为构建更安全、更可靠的自动驾驶系统提供了宝贵的见解。

参考

[1] Towards 3D Semantic Scene Completion for Autonomous Driving: A Meta-Learning Framework Empowered by Deformable Large-Kernel Attention and Mamba Model

Mamba与元学习双管齐下,打造新的语义补全方案!

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

Mamba与元学习双管齐下,打造新的语义补全方案!

点击阅读原文进入CV社区

收获更多技术干货

© 版权声明

相关文章

暂无评论

暂无评论...