今日应用
今日话题
CVPR 2024|知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点
重点标签 知识蒸馏、Logit标准化、温度共享问题、算法改进、实验结果
文章摘要
摘要:
文章针对传统知识蒸馏中的温度设置问题,提出了Logit标准化方法。传统知识蒸馏默认学生和教师网络的温度是全局一致的,这导致学生网络被迫模仿教师网络的logit值,而非其关系。文章通过熵最大化理论推导softmax函数,发现温度并没有明显的约束条件,不必全局共享。文章提出的Logit标准化方法解决了这一问题,并通过实验验证了其有效性。
背景介绍:
知识蒸馏是一种利用大模型(教师)教授小模型(学生)的技术。通过比较学生和教师网络的输出,使用KL散度作为损失函数进行优化。然而,传统方法中温度的设置缺乏理论支持,可能导致学生网络学习受限。
动机:
文章指出,共享温度的设置可能导致学生网络被迫输出与教师相当的logit,以及KL散度难以真实反映学生的蒸馏效果。因此,文章提出了logit标准化方法,以解决这些问题。
提出方法:
Logit标准化方法通过加权-score标准化函数对logit进行预处理,使得学生和教师网络的logit均值为零,标准差为一。这种方法具有均值零、标准差一致、单调性和有界性等优点。
实验结果:
在CIFAR-100和ImageNet数据集上的实验结果表明,Logit标准化方法能显著提高学生网络的性能。消融实验也证明了该方法的有效性。此外,通过可视化结果,可以看出Logit标准化方法能更好地反映学生和教师网络之间的关系。
总结:
文章针对知识蒸馏中的温度设置问题,提出了Logit标准化方法,并通过理论和实验验证了其有效性。这种方法有助于提高学生网络的学习效果,弥补学生和教师网络之间的能力差距。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台