今日应用
今日话题
大模型的高考数学成绩单:及格已经非常好了
重点标签 AI数学考试、高考数学、大模型比较、GLM-4-0520、逻辑推理
文章摘要
在一项由机器之心编辑部组织的模拟高考数学考试中,六家国内头部大模型公司的产品参与了测试。这些产品包括GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)和通义千问 2.5。测试结果显示,大多数大模型在数学考试中的表现并不理想,仅有智谱最新发布的GLM-4-0520模型超过了及格线。
这次模拟考试的目的是测试大模型在创造性写作技巧、基本计算能力、数学知识掌握、逻辑推理、抽象思维和问题解决等方面的高级能力。测试重点放在了高考数学的前14个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为73分。
测试结果显示,GLM-4-0520模型以63分的成绩领先,其次是智谱清言模型的43分,GPT-4o模型的41分,豆包模型的40分,文心 4和百川 4模型均以30分的成绩并列最后,而通义千问 2.5模型则以29分的成绩垫底。特别值得注意的是,所有参与测试的大模型在第8道单选题上均未能得出正确答案。
具体到各个题目的测试结果,可以看出各模型在不同题目上的表现差异较大。例如,在单选题一和单选题三中,有6个模型回答正确,而在单选题八中,所有模型均未能得出正确答案。在多选题和填空题中,部分模型能够部分正确回答问题,但整体表现仍然不尽人意。
这次模拟考试的结果表明,尽管大模型在某些方面表现出了一定的能力,但在数学知识的理解和应用、逻辑推理等方面仍有较大的提升空间。这也反映出在人工智能领域,对于复杂数学问题的解决能力仍然是一个需要进一步研究和突破的方向。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...