极市导读
本文探讨了视觉表征学习中骨干网络与优化器之间的耦合偏好现象,即“骨干网络-优化器耦合偏好”(BOCB),揭示了不同网络架构对优化器选择的偏好性及其对模型性能的影响。文章通过实验和分析,为设计低优化器耦合的视觉骨干网络提供了指导,并推荐了通用优化器。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
摘要
本研究深入探讨了视觉领域中骨干网络与优化器之间的偏好关系,揭示了“骨干网络-优化器耦合偏好”(Backbone-Optimizer Coupling Bias, BOCB)的现象。实验观察表明,VGG和ResNet等传统卷积神经网络(CNNs)较偏好SGD系列优化器;而以Vision Transformers(ViTs)和ConvNeXt为代表的现代化深度网络(Modern DNNs),更偏好AdamW为代表的自适应学习率优化器,且表现出很强的耦合性。本研究构建了20个代表性骨干网络和20个优化器的BOCB基准,发现特定网络设计或优化器会导致BOCB现象,且可能显著影响视觉模型的预训练性能和下游任务泛化性。结合分析工具和具体案例分析,本研究总结了如何设计高性能且低优化器耦合的视觉骨干网络,并评估、推荐了几个通用优化器。期望本研究能够激发社区对网络架构和优化器的默认配置和耦合性的质疑,兼顾网络架构的性能和通用性,以构建高效且鲁棒的视觉深度学习系统。
1. 引言
过去十年中,深度学习在各类计算机视觉任务上取得了显著突破,这主要归功于网络架构和优化器的快速发展。尽管如此,现有研究往往默认使用固定优化器和超参数配置,很大程度上忽视了选用优化器所带来的影响,缺乏系统性的分析和论证。本文旨在探索骨干网络结构和优化器之间的耦合关系,评估并探索这种关系对模型性能、模型参数特征和迁移性的影响和规律。
2. 视觉骨干和优化器的发展路线
2.1 视觉骨干架构的分类
本文将近十年以来的视觉网络架构发展时间线和代表性宏观设计(Macro design)概括为下图:
阶段化宏观设计:现有视觉骨干可分为层次结构化架构(如VGG、ResNet)和各向同性架构(如ViTs和MLP-Mixer)。块内宏观设计:网络块内结构(Block-wise)包含无残差的平网络块、带残差跳连的瓶颈模块、令牌混合(Token Mixer)与通道混合(Channel Mixer)拆分的元网络模块(MetaFormer block)等。早期CNNs采用的平网络块和瓶颈模块属于同质化块结构,内部不细分空间和通道的建模操作,而Transfomer为代表的现代化深度网络属于异质化块结构,结合残差和前归一化(Pre-normalization)结构分别做空间和通道建模。
2.2 主流梯度基优化器
本文将常见优化器归纳为包含4步的通用优化算法(如上图),并将常见的20种优化器归类如下:
固定学习率与动量:以SGD为代表,该类别的优化器对所有参数使用固定学习率,通过动量梯度作为优化方向。
自适应学习率与动量:以AdamW为代表,该类优化器结合了梯度的动量(Momentum)和逐参数自适应学习率的优势,采用估计的梯度二阶矩调节学习率。
估计学习率与动量:以AdaBelief为代表,该类优化器在第二类优化器基础上,通过额外的约束或估计来改进第二类优化器的收敛速度和性能,通常应用于具体任务(例如图像生成或NLP任务)。
自适应学习率与原梯度:以RMSProp为代表,该类优化器基于历史统计数据为每个参数估计适应学习率,但采用每个循环的原始梯度作为优化方向。
3. 骨干网络-优化器耦合偏好(BOCB)
3.1 骨干网络和优化器的联合评估
通常认为,骨干网络和优化器应当具有通用性和独立性。若一个骨干网络非常依赖某种优化器,它会在使用该优化器时取得优异的性能,但根据没有免费午餐定律(No-Free Lunch Theroy),它大概率会在某些优化器上出现明显的性能退化,此时可认为该骨干网络与优化器存在强耦合偏好。
性能指标: 考虑图像分类任务, 以验证集上 top-1 准确率评估每种骨干网络-优化器组合的性能。给定一个骨干网络 在一组优化器 上的实验结果, BOCB 强的骨干网络通常存在少数比正常结果差很多的结果, 可用以下方式筛选出此类结果:
其中为人为给定的阈值,基准数据集上模型性能的方差有关。如果某个结果到最优性能的差距比第一第三分位点的差距还大,说明该结果比该骨干网络的正常性能要差,说明骨干网络与优化器不适配。
超参数鲁棒性:记录每个骨干网络-优化器组合的最优超参数。对于单个优化器而言,在某个数据集上应该存在一组默认超参数配置,通常为该数据集上各类模型超参数的众数。通过计算骨干网络-优化器组合的最优超参数与默认超参数配置的距离(距离越大则需要花费更多调参代价),可衡量该骨干网络-优化器组合的超参数鲁棒性。
参数模式和收敛质量:选用四个指标来衡量所学到的参数空间质量和特征。分别对每层参数矩阵计算PL指数alpha、熵、L2范数和top-k PCA能量比率,对各层进行统计为全局直方图或逐层可视化的山脊图。
3.2 基准测试和观察
基准设置:在CIFAR-100上对20个代表性视觉骨干和20个流行优化器进行主要基准测试。观察:发现某些流行模型(例如DeiT-S和ConvNeXt-T)与某些优化器(即SGD和LARS)的组合效果不佳,从而总结了BOCB现象。
4. BOCB的来源
4.1 骨干宏观设计和Token Mixers的起源
早期CNNs:这些架构以简单的卷积层和池化层叠加设计为特点,最终通过全连接层完成特征的提取与分类。这种范式虽然有效,但为后续的优化景观变革奠定了基础。这些早期的CNNs通过直接的方法进行特征提取,但其优化潜力有限,需要更复杂的设计来进一步提升性能。
经典CNNs:ResNet的引入标志着向分阶段的层次结构设计的转变,显著增强了特征提取和表征学习能力。特别是ResNet-50,它展示了一种平衡的BOCB处理方式,与SGD优化器展现出强烈的兼容性,并相对于同期的其他架构有较低的BOCB。ResNet通过引入残差连接解决了深度网络训练中的梯度消失问题,这一创新不仅提升了网络的优化效率,也为深度学习模型的设计提供了新的思路。
现代架构:向现代骨干网络的转变引入了简化的块状设计(例如,MetaNeXt和ConvNeXt变体)或复杂的Blo ck-wise异构结构(例如,MogaNet和UniRepLKNet),由于其复杂的特征提取机制,增加了优化挑战和BOCB的程度。作为演化的巅峰,MetaFormer架构将阶段化和Block-wise异构性融入其设计中。这种创新的宏观设计通过与优化器的协调,优化了优化景观,从而减少了BOCB并提升了性能。
以上主干网的演变强调了宏观设计在塑造优化环境中的关键作用,以及在主干网架构中持续创新的必要性。它强调了在提高表示能力和保持优化效率之间必须达到的微妙平衡。详情请参阅论文附录C。
接下来,我们举例说明了三个案例,展示了表征能力与BOCB效应的权衡。
Case 1 (Transformer): ViTs由于其自注意力机制和阶段性各向同性设计,缺乏CNNs中的局部连接和位移不变性等归纳偏好。这需要精心的调整以确保在视觉任务中有效泛化并减少BOCB。MLP-Mixer通过用MLP替换基于注意力的Token Mixers来简化模型,从而简化了Token间的交互,使得训练过程更加稳定。然而,这种简化牺牲了模型捕捉长距离依赖的能力,这对于特定的视觉任务是必不可少的,因此体现了“模型简洁”与表征能力之间的权衡。AttenFormer由于其MetaFormer框架,整合了平衡的设计和跨阶段的残差缩放,有效地减轻了BOCB。Swin-T与DeiT-S类似,基于Vallina Transformer,但引入了层次化阶段和局部注意力块。这些设计增强了模型捕捉细粒度特征的能力,与DeiT-S相比,实现了更好的性能和更弱的BOCB。关键收获:针对减少异质性或增强同质性的块状宏观设计,结合层次化阶段和Token Mixers内整合的归纳偏好,对于ViTs在计算机视觉任务中减轻BOCB至关重要。
Case 2 (CNNs): 受ViTs成功的启发,ConvNeXt引入了一种同质化块设计,在残差连接中整合了两种类型的混合器,可能增强了在各种任务和数据尺度上的优化。这种架构的有效性强调了需要在优化和现实世界挑战的背景下,超越常见指标来评估网络设计的必要性。网络骨干与优化器之间的相互作用对于预训练和微调都至关重要,不同的架构影响着优化景观。CNNs中的BOCB通常与FFN设计相关,这在ConvNeXt等模型中至关重要。这些块作为点卷积或倒置瓶颈层实现,如果没有适当的正则化,容易过拟合。ConvNeXt.V2在FFN块中引入了全局响应归一化(GRN),类似于RMSNorm,以稳定训练并防止模型崩溃,从而减少BOCB。基于MetaFormer框架的ConvFormer使用带有深度卷积和点卷积的同质化块,提高了训练的鲁棒性并降低了BOCB风险。
同样,VGG系列因其简单和同质化的架构表现出良好的训练动态,RepVGG引入的训练阶段残差连接增强了性能,同时保持了稳定性并避免了BOCB。相比之下,ConvNeXt.V1和Moganet由于其复杂操作和异构块,更容易受到BOCB的影响。UniRepLKNet通过更同质化的设计规避了这一问题,突显了架构同构性在减少BOCB中的重要性。对于现代CNNs,促进同质化构建块结构的设计,并结合精心设计的策略来减轻模型故障,更有可能实现稳定的FFN训练并降低BOCB风险。
Case 3 (MetaFormer): MetaFormer架构以其分层次的阶段性和块状设计而著称,特点是ResScale,这有助于灵活集成各种Token Mixers。这种宏观设计对于在最小化BOCB风险的同时实现竞争力性能至关重要。IdentityFormer,凭借其基本的Token Mixer,为MetaFormer设定了一个稳健的baseline,但在需要Token Mixer表示的复杂任务中可能会有所不足,潜在地增加了BOCB风险。PoolFormerV2(将池化作为Token Mixer)的表现超过了IdentityFormer,但由于缺乏自注意力的细微差别,可能会忽略关键细节,导致更高的BOCB敏感性。为了增强MetaFormer并减轻这些风险,选择适当的Token Mixer是必不可少的。ConvFormer将CNN层集成到Transformer框架中,平衡了局部归纳偏好和全局感受野,以防止数据受限场景中的注意力崩溃,确保更好的收敛并减少BOCB。AttenFormer和CAFormer进一步探索了注意力机制,旨在通过改进的Token交互来增强MetaFormer的表征能力。总体而言,MetaFormer架构的成功取决于其层次化设计与Token Mixers选择之间的平衡,确保在多样化任务中提供稳健的性能,同时减轻BOCB的风险。
4.2 预训练和迁移学习中不同优化器的使用
扩展到ImageNet-1K分类: ImageNet-1K是一个基础性的基准测试,用于衡量视觉模型的分类能力。我们进一步研究了我们在ImageNet-1K上的观察结果是否仍然成立。具体的实现细节,请参见论文附录A.1。正如表所示,DeiT-S显示出比ResNet-50更强的BOCB,而图2中的类别(b)优化器(例如,AdamW)在预训练阶段在不同的骨干网络上显示出可靠的性能高原。这些优化器的一致性效用与ImageNet-1K所需的广泛特征学习非常吻合,使它们成为初始模型训练阶段的最佳选择。这些优化器在预训练阶段的效用会传递到迁移学习过程中。当模型从ImageNet-1K预训练过渡到在COCO上进行目标检测(使用RetinaNet)或姿态估计等任务时,优化器的选择至关重要。
迁移学习在COCO上: 对于使用ImageNet-1K预训练模型进行迁移学习的分析,我们确定了两个关于迁移后COCO任务性能的关键发现。首先,从骨干网络的角度来看,具有明显BOCB(ConvNeXt-T)的骨干网络在迁移学习场景中继续表现出BOCB特征。这表明这类模型的固有结构属性可能不容易仅通过迁移学习来缓解。其次,当我们使用对BOCB不太敏感的ResNet-50来控制变量观察优化器是如何影响骨干网络架构中的BOCB时,我们观察到类别(b)和(c)的优化器可能在预训练阶段引入显著的BOCB效应,尽管它们在预训练中是有效的。这表明预训练优化器的选择可能深刻影响模型的泛化和迁移能力,从而影响其在新任务上的可迁移性和性能。此外,与不限制微调阶段使用特定优化器的一阶优化器不同,类别(b)和(c)的优化器需要在预训练和微调阶段都使用。预训练中优化器的选择可以显著影响模型的可迁移性,尽管类别(b)和(c)的优化器表现出卓越的性能,但它们可能会向预训练的骨干网络引入BOCB。我们已经讨论了这一点,并在上面总结了实际推荐的优化器。
5. 结论与思考
本文探讨了计算机视觉中骨干网络设计和优化器选择之间的相互作用。我们揭示了骨干-优化器耦合偏差(BOCB)现象及其对视觉骨干网络潜在的限制,例如在下游任务中额外的微调时间和努力。我们还发现了不同网络设计和BOCB背后的基本原理,从而为未来的视觉骨干网络设计提供了指导。同时,基准测试结果和发布的代码为用户友好的部署和评估提供了参考。总体而言,我们旨在激励计算机视觉社区重新思考骨干网络和优化器之间的关系,在未来的研究中考虑BOCB,从而为更系统性的未来进步做出贡献。
同时这项工作有几个局限性:(1)尽管我们对ImageNet和COCO进行了迁移学习实验,但基准测试主要关注CIFAR-100,这可能导致对更广泛下游任务的发现存在疑问。然而,我们所有的迁移学习结果与CIFAR-100的发现一致。此外,我们发布的代码可以轻松扩展到其他任务。用户可以轻松地用它进行验证。(2)BOCB比当前的参数和FLOPs等指标更复杂,这可能导致实践中的不便。我们建议研究人员使用我们的代码,选择代表性的优化器,如SGD、Adam和AdamW,进行ridge plot验证和CIFAR-100基准测试,这些都是实用且资源高效的。我们也呼吁社区进一步探索BOCB,共同推进视觉系统的进展。
其他平台
HuggingFace: https://huggingface.co/papers/2410.06373 X: https://x.com/ZedongWangAI/status/1844221948508918207 Github: https://github.com/Black-Box-Optimization-Coupling-Bias/BOCB
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货