这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

AI最新资讯3个月前发布 tree
31 0 0

今日应用


今日话题


这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试
 

重点标签 视觉语言模型人工智能图像识别测试评估模型能力

文章摘要


研究背景与目的
视觉语言模型(VLMs)近年来取得了显著进展,能够理解图像内容并用语言描述,甚至执行复杂任务。然而,现有基准测试集并不能完全评估VLMs的视觉能力。研究者从验光师的视力测试中获得灵感,对四款顶级VLM进行了测试,以评估它们的视觉能力。

测试设计与方法
研究者设计了七项任务来测试VLMs的视觉能力,包括数线条交点、判断圆的位置关系、识别被红圈标记的字母、计算重叠图形数量、数表格行列数、计算嵌套正方形数量以及识别地铁直达线路。这些任务旨在避免VLMs从互联网数据集中直接获取答案,更多地依赖于模型对图像的视觉理解。

测试结果分析
测试结果显示,即使是在简单任务上,如数线条交点,VLMs的表现也不尽人意。在更复杂的任务中,如判断圆的位置关系和识别被红圈标记的字母,VLMs的准确率更是大幅下降。此外,VLMs在计算重叠图形、表格行列数和地铁线路时也存在困难。

VLMs的局限性
研究指出,VLMs在视觉能力上的不足可能与其依赖于大规模互联网数据的“背记”能力有关。尽管在ChartQA等测试中得分高,但这并不代表VLMs能够像人类一样感知图像。此外,VLMs在图像细节识别上的困难,表明它们在视觉理解和推理方面存在局限。

社会反响与讨论
这项研究结果引发了社会广泛关注和讨论。有网友认为,这些糟糕的测试结果可以通过训练和微调来解决,而另一些网友则对VLMs的实用性表示怀疑。论文作者也收到了关于测试科学性的质疑,有人认为测试并不能准确反映VLMs的视觉能力。

结论
尽管VLMs在某些方面取得了显著进展,但这项研究表明它们在视觉识别和理解方面仍存在明显不足。未来研究需要更深入地探讨VLMs的视觉理解和推理能力,以推动人工智能技术的发展。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...