极市导读
这是第一个针对微小目标检测的DETR类模型,提出了三大创新模块:类别计数模块、计数引导的特征增强和动态查询选择模块,以提高对微小物体的检测能力。此外,论文还介绍了使用的数据集和模型训练策略,并展示了精度对比和可视化结果。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
论文介绍
题目:DQ-DETR: DETR with Dynamic Query for Tiny Object Detection
会议:The European Conference on Computer Vision 2024 (ECCV)
论文:http://arxiv.org/abs/2404.03507
代码:https://github.com/Katie0723/DQ-DETR (将发布)
年份:2024
年份:2024
创新点
DQ-DETR 针对现有的基于DETR的物体检测方法在微小物体检测中的不足,提出了三大创新模块:
类别计数模块(Categorical Counting Module):该模块根据图片中物体数量的分类来动态调整查询数量,解决了不同图片中物体数量不平衡的问题。
计数引导的特征增强(Counting-Guided Feature Enhancement):通过与密度图结合增强微小物体的空间信息,从而提高对微小物体的检测能力。
动态查询选择模块(Dynamic Query Selection):根据图像中的物体密度动态调整查询的数量和位置,减少稀疏图像中的假阳性和密集图像中的漏检问题。
数据
1. AI-TOD-V2 数据集
AI-TOD-V2是一个航空图像数据集,用于检测微小物体。
图像数量:该数据集包含28,036张高分辨率航空图像。
标注数量:数据集中共有752,745个物体实例标注。
物体尺寸:平均尺寸为12.7像素。86%的物体尺寸小于16像素,最大物体尺寸不超过64像素。
物体分布:每张图像中的物体数量差异很大,从1个到2667个不等,平均每张图像有24.64个物体,标准差为63.94。数据集中存在大量的稀疏图像和密集图像,这对检测算法提出了挑战。
数据集划分:数据集分为训练集(11,214张图像),验证集(2,804张图像)和测试集(14,018张图像)。
2. VisDrone 数据集
VisDrone数据集包含无人机拍摄的图像,用于评估算法在无人机视角下的目标检测能力。
图像数量:数据集中共有14,018张图像。 图像尺寸:图像大小为2000×1500像素,较高的分辨率确保了捕捉更多细节。 标注数量:数据集中的图像包含10种类别的物体标注,包括行人、车辆、单车等。每个类别的物体数量各不相同,既有稀疏的场景,也有非常拥挤的场景。 物体分布:每张图像中的物体数量也差异很大,平均每张图像有40.7个物体,标准差为46.41。 数据集划分:该数据集分为训练集(6,471张图像)、验证集(548张图像)和测试集(3,190张图像)。
3. COCO 数据集
COCO(Common Objects in Context)是一个通用物体检测数据集,广泛用于目标检测任务的基准测试。本文在COCO数据集上进行了额外的实验,以验证DQ-DETR的泛化能力。
方法
总体结构
CNN骨干网络:用于提取多尺度特征。
Transformer编码器和解码器:Transformer用于全局特征建模,适用于捕捉图像中的长距离依赖关系。
三个关键模块:
类别计数模块(Categorical Counting Module,CCM)
计数引导的特征增强模块(Counting-Guided Feature Enhancement,CGFE)
动态查询选择模块(Dynamic Query Selection)
1. 类别计数模块(Categorical Counting Module)
该模块用于解决不同图像中物体数量不平衡的问题。具体来说,通过对图像中物体数量的估计,来调整Transformer解码器中使用的查询数量。
主要步骤:
密度提取器:使用扩张卷积从Transformer编码器输出的最高分辨率特征图中生成一个密度图。这个密度图包含了关于图像中物体数量的相关信息,特别是对微小物体的检测尤为重要。 物体计数分类:通过分类头将物体数量分为四个等级(N ≤ 10, 10 500),每个等级对应不同的查询数量。与传统的物体计数方法不同,DQ-DETR没有直接回归物体数量,而是通过分类将物体数量划分为离散的等级。这种分类方法更适合处理AI-TOD-V2这样物体数量差异较大的数据集。
2. 计数引导的特征增强模块(Counting-Guided Feature Enhancement,CGFE)
该模块通过密度图和视觉特征的结合,增强微小物体的空间信息。主要目的是增强对前景物体的关注,特别是在处理微小物体时,确保Transformer解码器能够更准确地定位它们。
空间注意力(Spatial Attention):将密度图和多尺度视觉特征进行融合,通过计算空间交叉注意力图,生成一个能强调前景物体的空间权重图。这个空间权重图能够增强图像中重要区域的特征,使其更适合检测微小物体。 通道注意力(Channel Attention):在空间注意力的基础上,进一步应用通道注意力来强化特征图的通道维度。通过对不同通道的关系建模,进一步提升微小物体的特征表达能力。 特征增强:将增强后的视觉特征用于改善查询的内容和位置信息。
3. 动态查询选择模块(Dynamic Query Selection)
该模块通过动态调整Transformer解码器中的查询数量和查询位置,使模型能够根据图像中的物体密度自适应地处理稀疏或密集的场景。
查询数量调整:根据类别计数模块的输出,动态调整解码器中查询的数量。对于物体较少的图像,使用较少的查询数量(例如K=300);对于物体较多的图像,使用更多的查询数量(例如K=1500)。这种动态调整能够有效避免在稀疏图像中引入过多的假阳性,以及在密集图像中漏检大量物体。 查询内容和位置增强:DQ-DETR的查询不仅仅是固定的嵌入向量,它们的内容和位置信息也会根据前述特征增强模块的输出进行动态更新。特别是,位置查询信息被表示为4D锚框(x, y, w, h),这些锚框提供了物体区域的位置信息,并通过偏置调整进一步优化查询的位置。
4. 总体损失函数
匈牙利匹配损失:结合了L1损失和广义IoU(GIoU)损失,用于优化边界框的回归任务。同时还采用了Focal Loss作为分类任务的损失函数。
类别计数模块的损失:为了监督物体计数分类任务,采用了交叉熵损失。
总体损失:包括了匈牙利匹配损失、类别计数模块的损失以及解码器的辅助损失。
5. 模型训练
两阶段训练:为了减少类别计数模块误差对动态查询选择的影响,DQ-DETR采用了两阶段的训练策略。首先,单独训练类别计数模块,使其输出的计数结果稳定。然后,再引入计数引导的特征增强模块,以密度图为指导,增强视觉特征。
结果与分析
精度对比
可视化
更多图表分析可见原文
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货