ECCV 2024｜VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

未分类5个月前发布 tree

73 0 0

↑ 点击蓝字关注极市平台

ECCV 2024｜VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

作者丨VincentLee

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

本文提出了一种无需额外数据和训练即可识别未知类别的语义分割方法，通过结合视觉-语言模型和新的评分函数来提高对离群样本的检测能力。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址：https://arxiv.org/abs/2409.17330

创新性

提出VL4AD模型用于解决语义分割网络难以检测来自未知语义类别的异常的问题，避免额外的数据收集和模型训练。
VL4AD将视觉-语言（VL）编码器纳入现有的异常检测器，利用语义广泛的VL预训练来增强对离群样本的感知，还加入max-logit提示集成和类别合并策略用于丰富类别描述。
提出了一种新的评分函数，可通过文本提示实现无数据和无训练的离群样本监督。

VL4AD

视觉文本编码器

视觉编码器是与文本编码器共同预训练, 解码器处理多尺度的视觉和文本嵌入，生成两种类型的输出：掩码预测分数和掩码分类分数 , 其中表示对象查询的数量。

对象查询是可学习的嵌入，类似于目标检测网络中的先验框。掩码预测分数以类别无关的方式识别物体，而掩码分类分数计算掩码属于特定语义类别的概率。

基于编码后的视觉嵌入和 ID 类别文本嵌入之间的余弦相似性计算掩码分类分数：

在架构上, 和 , 以及和是相当相似的, 区别在于在预训练后保持不变, 仅对视觉-语言解码器进行微调。通过这种方式, 将零样本 CLIP 在图像级别的竞争性 00 D 检测性能转移到像素级任务中。

Max-Logit提示集成于类合并

优化ID类文本嵌入可以使其更好地与相应的ID视觉嵌入对齐，提高ID和OOD类别之间的可分离性，但盲目地微调文本编码器可能导致灾难性遗忘。

为此，论文通过max-logit提示集成在文本提示中引入概念词汇多样性和具体化，显著提高模型对OOD输入的敏感性。词汇多样性包括同义词和复数形式，而具体化涉及更好地与CLIP预训练对齐的分解概念。例如，使用概念{vegetation, tree, trees, palm tree, bushes}来表示类vegetation。

max-logit 集成考虑给定类的所有替代概念，替换内容为视觉嵌入与所有个替代文本嵌入的最大余弦相似度:

此外，单靠在类维度上的最大像素级得分可能导致次优性能，因为在两个ID类之间的边缘像素的不确定性较高，尤其是当类别数量增加时。

为了解决这个问题，将相关的ID类合并为超类。通过在测试期间将各个语义类的文本提示作为不同的替代概念连接到超类中来实现，而无需重新训练。然后，可以使用max-logit方法获得超类的不确定性。

通过OOD提示实现无数据、无训练异常监督

通过视觉-语言预训练，通常能够很好地检测到与ID类不同的语义OOD类（远OOD类）。但当OOD类与ID类非常相似的情况（近OOD类），则更具挑战性。例如，在CityScapes类别中，OOD类大篷车在城市驾驶场景中可能在视觉上与ID类卡车相似。

利用视觉-语言模型的开放词汇能力，论文引入了一种新的评分函数，旨在更好地检测这些近OOD类，而不需要额外的训练或数据准备。

为了在测试时整合个新的 000 概念, 需要通过个额外的项扩展公式1中的掩码分类得分。遵循公式 2, 即通过将的前个通道与掩码预测得分进行组合，获得最终的不确定性得分 :

通过这一整合，类中的 000 对象将（在大多数情况下）正确分配到其相应的类别。如果没有这一整合, 它们可能会被错误地分配到与其实际 OOD 类别相似的 ID 类。相反, 如果输入中不存在 00D 对象, 额外的类的影响将保持微不足道。

主要实验

ECCV 2024｜VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

ECCV 2024｜VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

点击阅读原文进入CV社区

收获更多技术干货

# 未分类

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ECCV 2024｜VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

创新性

VL4AD

视觉文本编码器

Max-Logit提示集成于类合并

通过OOD提示实现无数据、无训练异常监督

主要实验

所有数据集上给神经网络刷分的通用方法

Scaling Laws终结，量化无用？

相关文章

暂无评论

热门网址

热门标签