今日应用
今日话题
挑战当前最难、规模最大多模态评测基准MME-RealWorld,QwenVL-2位列第一但并未及格
文章摘要
极市导读:
最近,一个名为 MME-RealWorld 的新基准测试引起了计算机视觉领域的广泛关注。这个基准测试由32位标注者共同完成,包含29,429条标注数据,图像的平均分辨率高达2000×1500像素,是当前难度最大的纯手工标注图像感知基准之一。值得注意的是,现有的模型在该基准测试上的总分准确率均未超过60%。
主要发现:
1. 在真实世界任务中,Qwen2-vl 和 InternVL2 在中文感知和推理任务上的表现明显优于闭源模型,如 Claude 3.5。
2. 在英文版任务中,感知能力排名为 Qwen2-vl > InternVL2 > 其他模型,但在推理任务上,Claude 3.5 表现更优。
3. 闭源模型如 Gpt-4o 在处理高分辨率图像方面的能力被高估,其排名通常不在前三。
4. 所有多模态大语言模型(MLLMs)在自动驾驶、遥感数据和视频监控等复杂场景下的表现都不理想,例如在某些领域,Qwen2-vl 的准确率仅为三十多(五分类)。
真实场景部分任务展示:
– 真实世界OCR:在分辨率超过1024×1024的图像上识别细粒度的文字/数字。
– 金融财报图表分析:超大图表的具体元素的定位、识别、比较与计算。
– 监控数据分析:对视频监控数据的具体目标的计数/分析与识别。
– 真实遥感数据物体识别:在高清遥感数据上对小物体的统计与属性识别。
– 自动驾驶:对自动驾驶场景下,自车或其他车辆拍摄图像中的各种元素的行为理解与预测。
为什么需要MME-RealWorld/现有benchmark的不足:
– MME-RealWorld 是规模最大的完全由人类标注的数据集,具有最高的平均分辨率和最具挑战性的任务。
– 近年来,MLLMs得到了显著的发展,但现有评估基准存在数据规模小、注释质量差和任务难度低的问题。
MME-RealWorld的数据来源与主要特征:
– 基于超过30万个公共和互联网来源,收集了13,366张高分辨率图像,平均分辨率为2000×1500像素。
– 邀请了25位专业标注员和7位MLLMs领域的专家参与数据标注和质量检查。
– 最终包含29,429个注释,涵盖43个子类任务,每个任务至少有100个问题。
模型效果与分析:
– Qwen2-VL 与 InternVL-2 在感知能力方面表现出最强的能力,优于其他闭源模型。
– 在推理能力方面,Claude 3.5 Sonnet 在大多数领域中表现最为出色。
目前MLLM的缺陷以及值得注意的点:
– 现有模型在图像细节感知方面的不足,多数模型选择答案 “E” 的频率远高于实际数据中的比例。
– MLLMs在理解和推理动态信息方面表现出明显的不足。
– 处理高分辨率图像时,各模型的计算效率差异显著。
总结与未来工作:
本文提出的 MME-RealWorld 基准测试旨在解决现有MLLM评估中的关键局限性,如数据规模、标注质量和任务难度。作为迄今为止最大、分辨率最高的纯人工标注数据集,MME-RealWorld 得益于32名标注者的参与,确保了高质量数据和最小的个人偏差。此外,MME-RealWorld-CN 作为一个专注于中文场景的基准测试,基本上能够确保所有图像和问题都与中文环境相关,且全中文为母语的人工标注,不存在机器翻译引发的一系列问题。本文还对广泛的模型进行的评估揭示了显著的性能差距,突出了当前模型在复杂图像感知方面的缺陷,并强调了进一步提高的需求。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台