CVPR 2024｜知识蒸馏中的Logit标准化：辅助logit-based KD算法稳定涨点

AI最新资讯1年前 (2024)发布 tree

165 0 0

今日应用

未来简历

基于千亿级AI大模型，即时定制专业高通过率的求职简历。融合精心设计的简历模板，确保您在众多候选者中脱颖而出。成千上万用户的首选，打造您成功求职的利器。

今日话题

CVPR 2024｜知识蒸馏中的Logit标准化：辅助logit-based KD算法稳定涨点

重点标签 知识蒸馏、Logit标准化、温度共享问题、算法改进、实验结果

文章摘要

摘要：
文章针对传统知识蒸馏中的温度设置问题，提出了Logit标准化方法。传统知识蒸馏默认学生和教师网络的温度是全局一致的，这导致学生网络被迫模仿教师网络的logit值，而非其关系。文章通过熵最大化理论推导softmax函数，发现温度并没有明显的约束条件，不必全局共享。文章提出的Logit标准化方法解决了这一问题，并通过实验验证了其有效性。

背景介绍：
知识蒸馏是一种利用大模型（教师）教授小模型（学生）的技术。通过比较学生和教师网络的输出，使用KL散度作为损失函数进行优化。然而，传统方法中温度的设置缺乏理论支持，可能导致学生网络学习受限。

动机：
文章指出，共享温度的设置可能导致学生网络被迫输出与教师相当的logit，以及KL散度难以真实反映学生的蒸馏效果。因此，文章提出了logit标准化方法，以解决这些问题。

提出方法：
Logit标准化方法通过加权-score标准化函数对logit进行预处理，使得学生和教师网络的logit均值为零，标准差为一。这种方法具有均值零、标准差一致、单调性和有界性等优点。

实验结果：
在CIFAR-100和ImageNet数据集上的实验结果表明，Logit标准化方法能显著提高学生网络的性能。消融实验也证明了该方法的有效性。此外，通过可视化结果，可以看出Logit标准化方法能更好地反映学生和教师网络之间的关系。

总结：
文章针对知识蒸馏中的温度设置问题，提出了Logit标准化方法，并通过理论和实验验证了其有效性。这种方法有助于提高学生网络的学习效果，弥补学生和教师网络之间的能力差距。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CVPR 2024｜知识蒸馏中的Logit标准化：辅助logit-based KD算法稳定涨点

今日应用

今日话题

文章摘要

文章来源

弱智吧：大模型变聪明，有我一份贡献

以史为鉴：面向图像复原问题的对比学习通用框架

相关文章

暂无评论

热门网址

热门标签