今日应用
今日话题
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
重点标签 tag1、AIxiv专栏、tag2、大语言模型、tag3、多模态大语言模型、tag4、MathVerse benchmark、tag5、机器之心
文章摘要
摘要:
AIxiv专栏是机器之心发布的一个专注于学术和技术内容的栏目,近年来已经报道了2000多篇内容,涵盖了全球各大高校和企业的顶级实验室,有效促进了学术交流。在数字化时代,大语言模型(LLM)因其强大的文本理解和生成能力而备受关注。研究者们正在探索将这些能力扩展到视觉领域,构建能够理解和生成多模态内容的多模态大语言模型(MLLMs)。
为了衡量MLLMs的深度认知和逻辑推理能力,研究者们推出了一个全新的测评benchmark——MathVerse。这个benchmark旨在探究MLLMs是否真正具备解读和解答多模态数学题的能力。目前,领域内缺少针对MLLM数学解题能力的测评,现有的benchmark如GeoQA、MathVista和MMMU存在一定的问题和偏差。
MathVerse测评数据集收集了2612个多模态数学题,并人工标注构造了多达15672个测试样本,广泛涵盖了3个主要题目类型和12个子类。研究者们定义了3种不同的文本类别:描述信息(DI)、隐含属性(IP)和基本条件(EC),并根据这些定义,将每道题系统地移除问题中的不同文本信息,逐步将关键元素融入到图表中,拓展为6个不同的题目版本。
此外,研究者们提出了一种CoT(Chain-of-Thought)评估策略,以细致评估MLLM的视觉数学链式推理能力。这种评估策略不仅关注最终答案的正确性,而且更加重视解题过程中的逻辑连贯性和推理深度。
实验结果显示,MLLM更依赖于文本信息去解题,而不是观察数学图像。大部分MLLM在没有图像输入的情况下,仅仅通过文本竟然可以获得更高的得分,证明如今低质量的视觉编码对于解题来说起到了负面的作用。此外,闭源模型的多模态数学解题能力要比开源模型更好。通过比较G-LLaVA和LLaVA-1.5,使用数学训练数据进行模型微调可以提升特定的解题能力,但是也会降低其泛化能力。CoT测评相比二元测评可以更全面的体现模型的逻辑推理能力。
重点结论:
1. MLLM在解决多模态数学题时,主要依赖于文本线索,而非真正去理解视觉图像本身。
2. 现有的多模态数学benchmark可能不足以全面评估MLLM的真正多模态数学推理能力。
3. CoT评估策略能够更精准地揭示MLLM在解决复杂数学问题时的真实能力,尤其是它们如何一步步构建问题解决方案的能力。