Ilya 小题大作?「预训练终结」≠ Scaling Law 撞墙?

未分类4周前发布 tree
17 0 0

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

Ilya 小题大作?「预训练终结」≠ Scaling Law 撞墙?

前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 2024 会议上作主题演讲,分享了他关于人工智能的未来发展方向,特别是围绕数据峰值的问题、预训练模型的局限性、以及下一代 AI 模型的自主性和推理能力等方面的看法。


他讨论了现有数据资源的限制对 AI 训练方式的影响,并预测了 AI 系统将如何发展出更类似于人类思考方式的推理能力。然而,Ilya Sutskever 在演讲中有关「预训练结束」的判断引发了许多争议。

目录

01数据即将枯竭,是「老生常谈」还是「小题大作」?
Ilya哪些观点引起了争议?业内都有哪些论调在反驳Ilya?
02.数据可能是石化燃料,但远远没有告罄
互联网数据真的会告罄吗?有哪些数据尚未得益利用?非互联网数据能用吗?
03. 预训练的终结本质上是 Scaling Law 的范式转移?
预训练终结和 Scaling Law 有何联系?Ilya 和 Sam Altman 的观点有冲突吗?
Ilya Sutskever 在演讲中表示,行业里称得上可用的新数据上已经接近枯竭。他将这一状况比作化石燃料的消耗:正如石油是有限资源一样,互联网中由人类生成的内容也是有限的。然而,在演讲发布后,许多声音都在强调可用于预训练的数据还非常充裕。
「预训练即将终结」在演讲后引来了 AI 社区中许多争议和反驳,认为 Sutskever 判断错误或是「小题大」。

AI 社区的反驳和讨论大多来自两个层面,其一在于否认「数据即将枯竭」的判断,其二则围绕 Sutskever 口中即将结束「预训练」高度关联的 Scaling Law 撞墙争议展开。

有关「数据即将枯竭」的反驳中,许多知名研究者均在在社交平台中强调或将枯竭的是文本预料,但视频、图像等高维数据十分充裕;也有网友将关注点放在「互联网」之外因收费、访问限制能原因而未能用作预训练的书籍、文献等未开发资源。

另一方面,「预训练即将结束」的判断引发冲突来自业内对近年来指导 LLM 突破的 Scaling Law 可能失效的焦虑。

2024 年中,Gary Marcus 在 6 月就 Scaling Law 收益递减的话题引发了大量讨论,而后外媒 The information 在 11 月有关 Scaling Law 撞墙的报道则进一步引发了业内热议,乐观派和悲观派持续展开激烈的思辨。

此前,Ilya Sutskever 一直是 Scaling Law 的倡导者,他相信「压缩即智能」,用大型神经网络准确预测互联网上许多不同文本中的下一个词时,表面上看只是在学习文本中的统计相关性,但其实在学习一个世界模型;而在预训练环节投入更多数据和算力则提高了模型对复杂过程的理解。

然而,当坚持Scaling Law的Ilya Sutskever作出「预训练即将结束」的判断,可能代表着这种质朴的「大力出奇迹」的方式将真的不再生效,也再次点爆了近期业内有关 Scaling Law 是否撞墙的争议话题。

在媒体于11月爆料后,Sam Altman 曾在社交平台发布过「there is no wall」的推文,与此次Ilya Sutskever 的判断看似冲突。但有分析梳理了两者言论前提的差异,指出 预训练的终结的说法本质上是 Scaling Law 的范式转移……


 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 
Ilya 小题大作?「预训练终结」≠ Scaling Law 撞墙?

👀 往期回顾 👀 
 01  AI 竞赛进入推理阶段:扩展测试时计算是万能的吗?Scaling What 成为关键
传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时间计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?
 02  谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?
具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?
 03  「压缩即智能」,成就 LLM 的 Transformer 未必是终极解?
知识压缩理论已经获得验证了?LLM 范式有变革征兆了?LLM 范式会向哪个方向演进?为什么Transformer 未必能够长青?有哪些声音在质疑Transformer?有哪些非Transformer的可行路线?…
 04  从文本到屏幕:「Project Jarvis」们能实现 AGI 吗?
头部 AI 公司为何都在做 AI 自主计算机操控?这事可行吗?和RPA的区别是什么?AI Agent自主操控计算机需要具备哪些能力?微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?
更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

© 版权声明

相关文章

暂无评论

暂无评论...