MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

AI最新资讯12个月前发布 tree

142 0 0

今日应用

光速写作

光速写作转为大学生及职场（公务）人士提供的全新智能写作软件。提供全文生成，大纲生成、文章改写、续写、扩写，AI问答，以及在各类根据您输入需求自动生成您需要的文本等AI功能。

今日话题

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

重点标签 tag1、AIxiv专栏、tag2、大语言模型、tag3、多模态大语言模型、tag4、MathVerse benchmark、tag5、机器之心

文章摘要

摘要：

AIxiv专栏是机器之心发布的一个专注于学术和技术内容的栏目，近年来已经报道了2000多篇内容，涵盖了全球各大高校和企业的顶级实验室，有效促进了学术交流。在数字化时代，大语言模型（LLM）因其强大的文本理解和生成能力而备受关注。研究者们正在探索将这些能力扩展到视觉领域，构建能够理解和生成多模态内容的多模态大语言模型（MLLMs）。

为了衡量MLLMs的深度认知和逻辑推理能力，研究者们推出了一个全新的测评benchmark——MathVerse。这个benchmark旨在探究MLLMs是否真正具备解读和解答多模态数学题的能力。目前，领域内缺少针对MLLM数学解题能力的测评，现有的benchmark如GeoQA、MathVista和MMMU存在一定的问题和偏差。

MathVerse测评数据集收集了2612个多模态数学题，并人工标注构造了多达15672个测试样本，广泛涵盖了3个主要题目类型和12个子类。研究者们定义了3种不同的文本类别：描述信息（DI）、隐含属性（IP）和基本条件（EC），并根据这些定义，将每道题系统地移除问题中的不同文本信息，逐步将关键元素融入到图表中，拓展为6个不同的题目版本。

此外，研究者们提出了一种CoT（Chain-of-Thought）评估策略，以细致评估MLLM的视觉数学链式推理能力。这种评估策略不仅关注最终答案的正确性，而且更加重视解题过程中的逻辑连贯性和推理深度。

实验结果显示，MLLM更依赖于文本信息去解题，而不是观察数学图像。大部分MLLM在没有图像输入的情况下，仅仅通过文本竟然可以获得更高的得分，证明如今低质量的视觉编码对于解题来说起到了负面的作用。此外，闭源模型的多模态数学解题能力要比开源模型更好。通过比较G-LLaVA和LLaVA-1.5，使用数学训练数据进行模型微调可以提升特定的解题能力，但是也会降低其泛化能力。CoT测评相比二元测评可以更全面的体现模型的逻辑推理能力。

重点结论：

1. MLLM在解决多模态数学题时，主要依赖于文本线索，而非真正去理解视觉图像本身。
2. 现有的多模态数学benchmark可能不足以全面评估MLLM的真正多模态数学推理能力。
3. CoT评估策略能够更精准地揭示MLLM在解决复杂数学问题时的真实能力，尤其是它们如何一步步构建问题解决方案的能力。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

今日应用

今日话题

文章摘要

文章来源

5亿个token之后，我们得出关于GPT的七条宝贵经验

视觉prompt工程！无需微调、无需任何模型修改，让一个通用模型可以执行多种指定任务

相关文章

暂无评论

热门网址

热门标签