大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

AI最新资讯4个月前发布 tree

51 0 0

今日应用

贼吧网

贼吧网,txt,txt小说,txt小说下载,txt电子书免费下载,txt电子书,电子书下载,手机电子书,小说txt下载全集

今日话题

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

重点标签 数学竞赛、AI挑战、算法创新、MCTSr、自我评估

文章摘要

在2024年阿里巴巴全球数学竞赛预选赛中，17岁的中专生姜萍取得了全球第12名的佳绩，同时AI挑战赛的成绩也显示出AI在数学竞赛中的潜力。然而，AI在逻辑推理能力上的不足，尤其是在证明题上难以获得完整得分点，这成为了大语言模型（LLM）在策略和逻辑推理任务中面临的重大挑战。为了解决这一问题，复旦大学和上海AI Lab的研究者提出了MCTSr算法，将LLM与蒙特卡洛树搜索（MCTS）算法相结合，以提高LLM在复杂数学推理任务中的表现。

MCTS作为一种决策工具，在需要战略规划的场景中广泛应用，如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLM的Self-Refine和Self-Evaluation能力相结合，旨在创建一个更强大的框架来应对当前LLM难以解决的复杂推理任务。在集成MCTS与LLM过程中，研究者面临技术挑战，如传统MCTS策略与LLM输出的随机性和生成性不吻合，以及需要定制的期望计算和反向传播方法来适应LLM的特有属性。

MCTSr的工作流程包括初始化、选择、Self-Refine、Self-Evaluation、反向传播和UCT更新等阶段。Self-Refine阶段通过多轮对话完善提示来优化答案，而Self-Evaluation阶段则通过模型自我奖励反馈和约束来计算答案的Q值。反向传播阶段确保节点的Q值能够反映其所有可能子节点的最新状态和评估。更新UCT和选择阶段则通过候选节点选择和UCT更新来平衡节点的探索和利用。

实验结果表明，MCTSr算法在解决数学问题中的有效性，尤其是在Zero-Shot CoT、Self-Refine、4-rollouts MCTSr和8-rollouts MCTSr等设置中，与GPT-4、Claude 3和Gemini 1.5-Pro等进行了比较。在GSM8K和GSM-hard测试集上，MCTSr的rollout次数与成功率之间存在直接相关性，并随着迭代次数增加而显著提升。然而，在更复杂的GSM-Hard测试集中，即使rollout次数更高也会达到性能上限，表明当前策略在解决复杂问题时存在局限性。

在MATH数据集上，MCTSr算法在不同复杂度级别的问题上展示了其有效性，尤其是在Level 1的简单问题上，8次rollout后实现了90.16%的成功率。而在最具挑战性的Level 5难度上，8次rollout后，MCTSr的成功率为34.06%。这些结果验证了MCT-Self-refine算法在学术和问题解决上下文中的潜力，并强调了其对不同复杂度级别问题的可扩展性和适应性。

此外，MCT-Self-refine算法在奥数竞赛的三个数据集上也进行了测试，结果显示其在未见过的数学问题上的适用性，并在奥林匹克等竞争性学术环境中具有优势。与当前闭源大模型进行比较时，MCTSr可以有效提升小参数开源模型的数学推理能力到相当的水平。

这项研究推进了LLM在复杂推理挑战中的应用，为未来整合AI相关的技术创新奠定了基础，使得LLM驱动的应用拥有了更强大的决策制定、推理准确性和可靠性。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

今日应用

今日话题

文章摘要

文章来源

AI研究的主要推动力会是什么？ChatGPT团队研究科学家：算力成本下降

太逼真了！Gen-3 Alpha重磅发布，Sora最强竞争对手！

相关文章

暂无评论

热门网址

热门标签