通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!

未分类3周前发布 tree
14 0 0
↑ 点击蓝字 关注极市平台
通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

本文介绍了一种新型的通用视觉主干网络TransXNet,它通过引入Dual Dynamic Token Mixer(D-Mixer)模块,融合了全局和局部动态性,显著提升了模型对多尺度特征的动态表征能力,并在多个数据集上展现出卓越的性能。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本篇分享论文TransXNet: Learning both global and local dynamics with a dual dynamic token mixer for visual recognition,通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!

通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!

论文链接:https://arxiv.org/abs/2310.19380 (预印版)

代码链接:https://github.com/LMMMEng/TransXNet

摘要

香港大学计算机科学系俞益洲教授(https://www.cs.hku.hk/~yzyu/)及其研究团队开发了一种新型的通用视觉主干网络—TransXNet,该模型同时融合了全局和局部动态性。其创新之处在于引入了一个即插即用的模块,名为Dual Dynamic Token Mixer(D-Mixer)。

与以往的卷积和self-attention混合模块或全局与局部信息融合模块不同,D-Mixer专注于动态性的捕捉

具体来说,D-Mixer能够利用网络上一层的feature map信息,生成用于提取当前层feature maps的全局和局部动态权重,从而显著增强模型对多尺度特征的动态表征能力。

为了验证TransXNet的性能,研究团队分别在ImageNet-1K、COCO 2017和ADE20K数据集上进行了广泛的实验,结果表明,TransXNet作为一个通用视觉主干网络,展现出了卓越的性能。

动机

在本文中,作者深入探讨了self-attention和卷积在权重计算方式上的不同,并基于此提出了改进方案。作者指出,self-attention之所以性能卓越,部分原因在于其权重(即attention matrix)会根据不同的输入动态变化,这种input-dependent的特性使得模型能够更好地捕捉输入数据的特征。

相比之下,传统的卷积操作中的权重是静态的,与输入数据无关,即input-independent,这限制了其表征能力。据此,作者进一步分析了如果将self-attention和传统的卷积简单地结合可能遇到的问题:

  • 表征能力差异:由于卷积缺乏类似self-attention的动态性,这导致在卷积-attention混合模块中,self-attention的语义建模能力可能会被削弱,因为卷积部分的静态特性限制了模块整体的表征能力。
  • 深层模型的挑战:在深层模型中,self-attention能够利用先前层的特征图的全局和局部信息来生成动态的attention matrix,从而提高模型的性能。然而,卷积核的静态特性使其无法利用这些信息来动态调整,从而限制了模型在深层结构中的表现。

方法

为了解决上述问题,作者提出了一个即插即用模块D-Mixer。该模块能够动态地捕获全局和局部信息,从而使网络兼具大感受野和稳定的归纳偏置。

如图1(a)所示,对于给定的输入特征图, D-Mixer首先会将其沿通道维度拆分为两部分,并分别将这两部分输入到两个不同的模块中,即Input-dependent Depthwise Convolution(IDConv)以及 Overlapping Spatial Reduction Attention(OSRA)。

输出结果会进行拼接,并且由一个轻量级的Squeezed Token Enhancer(STE)进行整合。以下为不同模块的具体描述:

通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
图1 D-Mixer

**Input-dependent Depthwise Convolution (IDConv)**:如图1(b)所示,对于任意输入特征图,作者首先使用一个自适应平均池化层聚合空间上下文,并将空间维度压缩至K×K,其中K为待生成的动态卷积核的大小。紧接着,输出的特征图被送入两个1×1卷积层中,并生成多组维度为G×C×K×K的空间注意力图,其中G、C分别表示注意力图的组数以及输入特征图的通道数量,注意力图在G维度上使用 softmax 函数对其进行归一化,使其具备自适应的选择能力。最后,通过将注意力图和一组维度同为G×C×K×K的可学习参数进行逐元素相乘来生成动态卷积核,并将其用于输入特征图的特征提取。IDConv可以根据上一层特征图携带的语义信息来动态地生成卷积核的权重,进而可以与self-attention进行深度嵌合。

Overlapping Spatial Reduction Attention (OSRA): 如1图(c)所示,OSRA的整体流程和PVT中提出的 Spatial Reduction Attention(SRA)类似,都采用了token-to-region的全局建模方式。主要不同之处在于,SRA在降采样的过程中使用的是Non-overlapping的卷积,即卷积核大小和步长大小一致。因此,一些连续的局部信息会在这个过程中被破坏,从而降低key/value分量包含的空间结构信息。据此,OSRA引入了 Overlapping卷积来进行降采样,即卷积核的大小大于步长。此外,OSRA还引入了一个轻量的局部算子(用3×3的depthwise卷积实现)来进一步提炼 key/value 分量的局部信息。

**Squeezed Token Enhancer (STE)**:为了高效地将IDConv和OSRA处理后的特征进行融合,本文引入了一个轻量级的特征融合模块STE。如图1(d)所示,STE通过一个3×3的depthwise卷积和两个通道压缩的 1×1 卷积来实现特征融合。值得一提的是,STE相较于直接使用一个全连接层进行特征融合具有更好的性能以及更优的计算复杂度。

TransXNet 整体架构:如图 2 所示,TransXNet的基本构成部分主要包含D-Mixer和Multiscale Feed-forward Network(MS-FFN)。其中,MS-FFN 使用了多个不同卷积核大小的 depthwise 卷积来提取多尺度信息。由于TransXNet同样沿用了ResNet和Swin Transformer中的金字塔设计,因此,该网络可以应用到各类视觉任务中。

通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
图2 TransXNet整体架构

实验结果:

  1. 图像分类: TransXNet在大规模数据集ImageNet-1K 上表现出了卓越的性能,相较于现有方法,展现出更为出色的性能以及更加优秀的tradeoff,如图 3 所示。
通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
图3 不同模型在ImageNet-1K上的性能对比
  1. 目标检测: 如表1所示,在COCO 2017数据集上,TransXNet 同样展示出了更优的性能。值得注意的是,TransXNet在处理小目标时比强调局部性的Slide-Tranformer性能更好,充分展现了TransXNet利用全局和局部动态性获得的强大能力。
  2. 语义分割: 如表2所示,TransXNet在ADE20K上也进行了全面的评估,其性能在与一些强大的Vision Backbones的比较中脱颖而出,并且有着更优秀的tradeoff。
  3. 消融研究: 如表3所示,TransXNet对核心模块进行了广泛的消融实验,例如与不同token mixer的性能对比以及和不同动态卷积的性能对比等。可以看出,TransXNet中的核心部件相较于其他算法有着更加出众的性能。除此之外,原文还包含有更多的性能和效率对比及分析。
通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
表1 目标检测和实例分割性能对比
通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
表2 语义分割性能对比
通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
表3 核心部件的消融研究

可视化研究

动态卷积在卷积 – Attention混合模型中的重要性:

如图4 (a) 所示,在动态卷积的加持下,卷积-Attention混合模型能够拥有更大的有效感受野(Effective Receptive Field, ERF)。其中,所提出的IDConv展现出了最好的性能,表明其可以更好地配合self-attention 模块来捕获上下文信息。

不同Vision Backbones的ERF对比:

如图4 (b) 所示,TransXNet在具有最大感受野的同时还具备显著的局部敏感度,这是其他模型无法兼备的能力,进一步表明了全局和局部动态性的重要性。

通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!
图4 不同模型有效感受野(Effective Receptive Field, ERF)对比

通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

通用的视觉Backbone,TransXNet: 全局动态性+局部动态性=性能强大,代码已开源!

点击阅读原文进入CV社区

收获更多技术干货

© 版权声明

相关文章

暂无评论

暂无评论...