本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
近期,国内多家大厂、AI 创企纷纷发布类 o1 推理模型,部分模型称效果大幅超越 OpenAI 的 o1-preview 等。各家的推理模型在技术思路有何异同?模型实测效果如何?
目录
01. R1-Lite、K0-Math…国内纷纷推出的类 o1 推理模型,谁更强?这些推理模型们在不同数据集上的评分表现如何?分别在哪些维度,打过 o1 模型了?在训练、推理不同阶段,主要有哪些技术方案?长思维链构建:基于 LLM+奖励的树搜索了解一下?强化学习训练:如何使用过程奖励模型(PRM)进行评估?推理阶段:Marco-o1 和 LLaVA-o1 分别使用了何种不同的方法?03. 实测效果各有优劣:「过度推理」成为共性问题各家推理模型们实测效果如何?为何普遍存在「过度推理」问题? 01 R1-Lite、K0-Math…国内纷纷推出的类 o1 推理模型,谁更强?
1、近期,国内大厂、AI 创企陆续发布类 o1 推理模型,DeepSeek 推出 R1-Lite 推理模型;Kimi(月之暗面)推出的主打数学能力的推理能力强化模型 k0-math;阿里先后推出 Marco-o1、QwQ 两款推理模型;昆仑万维推出 Skywork o1 推理模型。高校方面,北大、鹏城实验室发布能够自主进行多阶段推理的视觉语言模型模型 LLaVA-o1;上交大 GAIR 研究组发布 o1 复现项目。2、其中,部分公司称其推理模型的效果大幅超越/领先了 OpenAI 的 o1-preview、GPT-4o 模型。
表:近期推出的国内推理模型在不同数据集上的评分表现o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层,模型推理层的开发和规模增长也成为大模型厂商们当下的关注重点。1、o1 模型在数学、代码和长远规划等方面的能力取得了大幅的提升。根据其官方博客,o1 深度思考和复杂推理能力的提升归功于采用了自我对弈强化学习(Self-play RL)、思维链(CoT)等技术。但 OpenAI 并没有公开 o1 模型的具体技术细节,从各高校、研究机构的 o1 模型复现研究来看,o1 的主要技术路线为「搜索+强化学习」,即对思维链进行搜索,然后用强化学习去学习搜索的过程。2、尽管对于 o1 模型的技术解读、猜想较多,但目前来看,做推理模型具体的技术仍还在探索中,如思维链数据/监督信号如何获取及构建?长思维链的合成如何扩展?如何进行显式的合理推理?近期国内推出的 7 个类 o1 推理模型中,仅有 3 个发布了技术报告,其余则没有公开技术细节。从已公开的三份技术报告来看,各家的技术路线也有一定差异。长思维链构建:基于 LLM+奖励的树搜索了解一下?1、上交大 GAIR 研究组在其 o1 复现项目,通过对 o1 模型在处理和推理复杂方程的底层思维链的观察发现,o1 模型的思维链最显著的特征是在推理产生错误时或遇到冗余的推理步骤时尝试反思和回溯。这类似于在推理树上搜索问题的解决方案。① 该技术思路通过构建推理树来模拟解决问题的过程,树的每个节点代表一个推理步骤。当推理出现错误或冗余时,模型会在错误节点回溯,直至找到正确路径。期间,使用细粒度的奖励模型来判断每个推理步骤的正确性,从而在树搜索中整合错误步骤和回溯反思,以形成长思维。2、这里提到的「树搜索」方法是指在棋类游戏(Board Game)中的关键技术蒙特卡罗树搜索(MCTS),来源于 DeepMind 的 AlphaGo 工作,AlphaGo 系统的核心模块为树搜索和两个神经网络,其中树搜索用于在 19X19 的棋盘所构成的解空间中寻找最佳的动作。3、阿里 MarcoPolo 团队发布的推理模型 Marco-o1 采用了类似的技术思路。将大型语言模型与蒙特卡洛树搜索(MCTS)集成,来增强 Marco-o1 模型的推理能力。具体来说…… 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读
01 AI 竞赛进入推理阶段:扩展测试时计算是万能的吗?Scaling What 成为关键传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时间计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?… 02 谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?… 03 「压缩即智能」,成就 LLM 的 Transformer 未必是终极解?知识压缩理论已经获得验证了?LLM 范式有变革征兆了?LLM 范式会向哪个方向演进?为什么Transformer 未必能够长青?有哪些声音在质疑Transformer?有哪些非Transformer的可行路线?… 04 从文本到屏幕:「Project Jarvis」们能实现 AGI 吗?头部 AI 公司为何都在做 AI 自主计算机操控?这事可行吗?和RPA的区别是什么?AI Agent自主操控计算机需要具备哪些能力?微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?…更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。