大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

今日应用


今日话题


大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
 

重点标签 数学竞赛AI挑战算法创新MCTSr自我评估

文章摘要


在2024年阿里巴巴全球数学竞赛预选赛中,17岁的中专生姜萍取得了全球第12名的佳绩,同时AI挑战赛的成绩也显示出AI在数学竞赛中的潜力。然而,AI在逻辑推理能力上的不足,尤其是在证明题上难以获得完整得分点,这成为了大语言模型(LLM)在策略和逻辑推理任务中面临的重大挑战。为了解决这一问题,复旦大学和上海AI Lab的研究者提出了MCTSr算法,将LLM与蒙特卡洛树搜索(MCTS)算法相结合,以提高LLM在复杂数学推理任务中的表现。

MCTS作为一种决策工具,在需要战略规划的场景中广泛应用,如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLM的Self-Refine和Self-Evaluation能力相结合,旨在创建一个更强大的框架来应对当前LLM难以解决的复杂推理任务。在集成MCTS与LLM过程中,研究者面临技术挑战,如传统MCTS策略与LLM输出的随机性和生成性不吻合,以及需要定制的期望计算和反向传播方法来适应LLM的特有属性。

MCTSr的工作流程包括初始化、选择、Self-Refine、Self-Evaluation、反向传播和UCT更新等阶段。Self-Refine阶段通过多轮对话完善提示来优化答案,而Self-Evaluation阶段则通过模型自我奖励反馈和约束来计算答案的Q值。反向传播阶段确保节点的Q值能够反映其所有可能子节点的最新状态和评估。更新UCT和选择阶段则通过候选节点选择和UCT更新来平衡节点的探索和利用。

实验结果表明,MCTSr算法在解决数学问题中的有效性,尤其是在Zero-Shot CoT、Self-Refine、4-rollouts MCTSr和8-rollouts MCTSr等设置中,与GPT-4、Claude 3和Gemini 1.5-Pro等进行了比较。在GSM8K和GSM-hard测试集上,MCTSr的rollout次数与成功率之间存在直接相关性,并随着迭代次数增加而显著提升。然而,在更复杂的GSM-Hard测试集中,即使rollout次数更高也会达到性能上限,表明当前策略在解决复杂问题时存在局限性。

在MATH数据集上,MCTSr算法在不同复杂度级别的问题上展示了其有效性,尤其是在Level 1的简单问题上,8次rollout后实现了90.16%的成功率。而在最具挑战性的Level 5难度上,8次rollout后,MCTSr的成功率为34.06%。这些结果验证了MCT-Self-refine算法在学术和问题解决上下文中的潜力,并强调了其对不同复杂度级别问题的可扩展性和适应性。

此外,MCT-Self-refine算法在奥数竞赛的三个数据集上也进行了测试,结果显示其在未见过的数学问题上的适用性,并在奥林匹克等竞争性学术环境中具有优势。与当前闭源大模型进行比较时,MCTSr可以有效提升小参数开源模型的数学推理能力到相当的水平。

这项研究推进了LLM在复杂推理挑战中的应用,为未来整合AI相关的技术创新奠定了基础,使得LLM驱动的应用拥有了更强大的决策制定、推理准确性和可靠性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...