今日应用
今日话题
ICML 2024|英特尔开源轻量级涨点神器:KernelWarehouse
重点标签 tag1、动态卷积、KernelWarehouse、注意力函数、卷积神经网络
文章摘要
极市导读:本文提出了一种名为KernelWarehouse的新型动态卷积形式,它通过利用卷积神经网络(ConvNets)中卷积参数的依赖关系,重新定义了“内核”、“组装内核”和“注意力函数”的概念。该方法旨在提高动态卷积性能的同时保持参数效率,允许探索更大的核数设置,从而推动动态卷积性能边界的提升。
动态卷积:动态卷积通过学习n个静态卷积核的线性混合,并使用输入相关的注意力加权,相较于普通卷积展现出更优越的性能。然而,这种方法会增加n倍的卷积参数,导致模型大小大幅增加,限制了其在参数效率方面的探索。为了解决这一问题,KernelWarehouse通过利用卷积参数在同一层内部以及邻近层之间的依赖关系,重新定义了动态卷积的基本概念。
KernelWarehouse:KernelWarehouse由三个组件组成:核分区、仓库构建与共享和对比驱动的注意力函数。核分区利用同一卷积层内的参数依赖关系重新定义了线性混合中的“核”,以较小的局部尺度定义。仓库构建与共享利用相邻卷积层之间的参数依赖关系,重新定义了跨同一阶段卷积层的“组装核”,并生成了一个大型仓库,用于跨层线性混合共享。对比驱动的注意力函数则用于解决在具有挑战性的核数设置下,跨层线性混合学习范式下的注意力优化问题。
实验:通过在ImageNet和MS-COCO数据集上的大量实验,KernelWarehouse证明了其有效性。它不仅在性能上超越了现有的动态卷积方法,还在减小ConvNet模型大小的同时提高了模型准确性。此外,KernelWarehouse还适用于Vision Transformers,为动态卷积研究创造了新的性能纪录。
讨论:KernelWarehouse的设计使其成为一种更通用的动态卷积形式,能够在参数效率和表示能力之间取得显著的改进。通过调整核单元数量和共享仓库的大小,KernelWarehouse能够在不同的卷积参数预算下实现性能和效率的平衡。此外,KernelWarehouse的三个关键组成部分的联合正则化效应也在实验中得到了验证,证明了其在模型准确性和参数效率方面的显著提升。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台