今日应用
今日话题
CVPR 2024|PromptKD: 基于Prompt的视觉语言模型蒸馏
重点标签 PromptKD、视觉语言模型、模型蒸馏、Prompt Learning、SOTA
文章摘要
摘要:
PromptKD是一种新颖的基于prompt的视觉语言模型蒸馏方法,它在11个Prompt Learning基准数据集上取得了最先进的性能(SOTA)。该方法通过引入大型CLIP模型作为教师模型,解决了文本特征质量、模型监督和数据量限制的问题。PromptKD的核心思想是重用教师模型生成的文本特征,对齐学生模型和教师模型的logits,并使用大量无标签领域数据进行训练。实验结果表明,PromptKD在多个数据集上都取得了优异的性能,并且在教师模型预训练方法的选择上具有灵活性。
详细介绍:
1. PromptKD方法:PromptKD通过使用大型CLIP模型(教师)来指导小型CLIP模型(学生)的训练,从而提高了学生模型的性能。教师模型的文本特征被重用于学生模型的训练和推断,确保了高质量的文本特征,同时减少了计算量。学生模型的图像特征与教师模型的文本特征通过一个投影器对齐,然后相乘得到预测logits。
2. 实验结果:PromptKD在11个benchmark数据集上取得了SOTA性能,包括base-to-novel和cross-dataset实验。消融实验和与其他使用无标签数据的方法的对比也证明了PromptKD的有效性。
3. 问题解答:文章提供了关于PromptKD的一些常见问题解答,包括对小型CLIP模型的适配、教师模型预训练的选择、硬件需求和蒸馏阶段数据标签的处理。
4. 贡献与致谢:PromptKD的工作得到了蚂蚁集团的申书恒、张长浩和傅幸等人的讨论和帮助,作者对他们表示感谢。
结论:
PromptKD为视觉语言模型的蒸馏提供了一种有效的新方法,能够在多个数据集上取得优异的性能,并且具有很好的灵活性和适应性。该方法的成功展示了基于prompt的方法在视觉语言模型领域的潜力和应用前景。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台