Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA

AI最新资讯2个月前发布 tree
21 0 0

今日应用


今日话题


Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA
Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA
 

重点标签 CLIP自监督学习视觉感知多模态任务扩散模型DIVA框架

文章摘要


本文介绍了一篇名为`Diffusion Feedback Helps CLIP See Better`的论文,该论文提出了一种通过自监督学习来提升CLIP(对比语言-图像预训练)模型视觉感知能力的解决方案。CLIP模型虽然在跨领域和跨模态任务中表现出色,但在细粒度视觉感知方面存在不足。为了解决这一问题,研究者们提出了DIVA框架,利用扩散模型的生成反馈来优化CLIP的表征。

CLIP模型在零样本任务中表现出色,但存在难以准确理解长文本和辨别相似图像中细微差异的问题。感知视觉细节的能力对于基础模型至关重要,而CLIP在这方面的不足直接影响了以CLIP作为视觉编码器的模型表现。因此,研究者们通过自监督学习范式,使用扩散模型的生成反馈来优化CLIP的表征。

DIVA框架的核心思想是将CLIP模型与预训练的扩散模型结合,通过自监督扩散过程来克服CLIP的视觉缺陷。具体来说,CLIP模型编码原始图像的视觉特征,这些特征与扩散模型文本编码器的空文本嵌入结合,为扩散过程提供条件。扩散模型尝试预测添加的噪声,通过最小化重建损失来优化CLIP的表征。这种方法不需要额外的文本标注数据,只需纯图片数据即可。

实验结果表明,DIVA能够有效提升CLIP模型在视觉细粒度感知方面的能力,同时保持CLIP原本优秀的泛化性能。在多模态理解和视觉感知任务上,DIVA能够显著提升基于CLIP的大型多模态语言模型和视觉模型的性能。

尽管DIVA取得了显著的成果,但仍存在一些局限性,如数据和模型规模可进一步扩展。未来的研究方向包括结合更细粒度的监督方案提升CLIP模型能力,扩展至其他模态数据,以及发展基于扩散模型的更通用、更强大的框架。

点击阅读原文,了解更多关于CLIP、自监督学习、视觉感知和多模态任务的技术干货。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...