标签:视觉语言模型

这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

研究背景与目的视觉语言模型(VLMs)近年来取得了显著进展,能够理解图像内容并用语言描述,甚至执行复杂任务。然而,现有基准测试集并不能完全评估VLMs的视...

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

本文介绍了一种名为DynRefer的新型区域级多模态理解方法,由中国科学院大学LAMP实验室的研究团队提出。DynRefer通过模拟人类视觉认知过程中的动态分辨率机制...

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域取得了显著进展,大型语言模型(LLM)如Llama和ChatGPT等不仅能够处理多种任务,也开始具备处理视觉输入的能力。这标志着AI技术革命的一...

ICRA 2024:基于物理常识进行推理

为了在现实世界中推理,机器人必须超越被动地查询LLMs,积极地从环境中收集所需的信息来做出正确的决策。研究人员提出了一种方法,利用LLM和视觉语言模型(VL...

CVPR 2024|PromptKD: 基于Prompt的视觉语言模型蒸馏

摘要:PromptKD是一种新颖的基于prompt的视觉语言模型蒸馏方法,它在11个prompt learning基准数据集上取得了最先进的性能(SOTA)。该方法通过引入大型CLIP模...

2024年还在学YOLO?SeeClick: 手把手教你基于Qwen-VL搭建一个多模态智能体!

本文介绍了南京大学和上海AI实验室共同研发的基于大规模视觉语言模型(LVLM)的视觉GUI智能体SeeClick。SeeClick能够像人类一样通过观察屏幕执行点击、输入等...