标签:视觉语言模型

CVPR 2024|PromptKD: 基于Prompt的视觉语言模型蒸馏

摘要:PromptKD是一种新颖的基于prompt的视觉语言模型蒸馏方法,它在11个prompt learning基准数据集上取得了最先进的性能(SOTA)。该方法通过引入大型CLIP模...

2024年还在学YOLO?SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体!

本文介绍了南京大学和上海AI实验室共同研发的基于大规模视觉语言模型(LVLM)的视觉GUI智能体SeeClick。SeeClick能够像人类一样通过观察屏幕执行点击、输入等...