今日应用
今日话题
ECCV’24|ToCom:华为推出通用ViT标记压缩器,一次训练适配所有场景
重点标签 tag1、标记压缩、ViTs、ToCom、模型算术
文章摘要
摘要:
本文介绍了一种新的标记压缩技术——标记补偿器(ToCom),旨在解决视觉变换器(ViTs)在训练和推理过程中由于标记压缩程度不一致而导致的性能下降问题。ToCom通过在预训练模型上执行快速参数高效的自蒸馏阶段,获得一个小型插件,以描述不同压缩程度下模型之间的差距。实验结果表明,ToCom能够有效地解耦训练和推理过程中的标记压缩程度,在VTAB-1k基准测试中,ToCom在DeiT-B的平均性能上比ToMe最高可提升2.0%。此外,ToCom还可以应用于不同规模的模型或在不同对象上预训练的模型,或者用于增强各种标记压缩方法,包括标记合并和标记剪枝。
详细内容:
1. 标记压缩的重要性: 随着ViTs规模的快速增长,计算成本的增加已成为一个迫切问题。标记压缩通过减少冗余标记的数量(例如,修剪不重要的标记或合并相似的标记)来加快ViTs的训练和推理。
2. ToCom的提出: 论文提出了标记补偿器(ToCom),以解耦训练和推理过程中的标记压缩程度。ToCom是一个参数高效的模块,仅包含少量参数,用于描述具有不同压缩程度的模型之间的差距。在推理过程中,ToCom可以直接插入到任何下游现成模型中,无论训练和推理的压缩程度是否匹配,都能获得通用的性能提升,而无需进一步训练。
3. ToCom的训练方法: 为了获得ToCom,在预训练数据集上通过不同压缩程度之间的快速自蒸馏过程进行训练。具体来说,教师模型和学生模型都是相同的冻结预训练模型,其中学生模型包括ToCom。在每一步中,教师模型和学生模型被随机分配不同的压缩程度,同时ToCom通过蒸馏学习它们之间的差距。
4. 实验结果: 论文在超过20个数据集上进行了实验,涵盖了各种压缩程度设置。实验结果表明,ToCom作为一个即插即用的模块,能够有效地解耦训练和推理过程中的标记压缩程度。例如,在VTAB-1k基准测试中,ToCom在DeiT-B的平均性能上比ToMe最高可提升2.0%。
5. ToCom的应用: ToCom不仅可以应用于不同规模的模型或在不同对象上预训练的模型,还可以用于增强各种标记压缩方法,包括标记合并和标记剪枝。此外,ToCom只需预训练一次,即可应用于在任意下游数据集上经过微调的模型,不论其标记压缩程度如何,从而使任何单一的现成模型能够处理动态延迟约束,而无需修改参数。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台