标签：视觉语言模型

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

研究背景与目的视觉语言模型（VLMs）近年来取得了显著进展，能够理解图像内容并用语言描述，甚至执行复杂任务。然而，现有基准测试集并不能完全评估VLMs的视...

2周前

本文介绍了一种名为DynRefer的新型区域级多模态理解方法，由中国科学院大学LAMP实验室的研究团队提出。DynRefer通过模拟人类视觉认知过程中的动态分辨率机制...

1个月前

近些年，语言建模领域取得了显著进展，大型语言模型（LLM）如Llama和ChatGPT等不仅能够处理多种任务，也开始具备处理视觉输入的能力。这标志着AI技术革命的一...

2个月前

为了在现实世界中推理，机器人必须超越被动地查询LLMs，积极地从环境中收集所需的信息来做出正确的决策。研究人员提出了一种方法，利用LLM和视觉语言模型（VL...

3个月前

摘要：PromptKD是一种新颖的基于prompt的视觉语言模型蒸馏方法，它在11个prompt learning基准数据集上取得了最先进的性能（SOTA）。该方法通过引入大型CLIP模...

4个月前

本文介绍了南京大学和上海AI实验室共同研发的基于大规模视觉语言模型（LVLM）的视觉GUI智能体SeeClick。SeeClick能够像人类一样通过观察屏幕执行点击、输入等...

4个月前