OpenAI 已破解多数据中心分布式训练?美科技巨头比拼 AI 基础设施能力

未分类3个月前发布 tree
40 0 0
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
OpenAI 已破解多数据中心分布式训练?美科技巨头比拼 AI 基础设施能力

近日,SemiAnalysis 的创始人 Dylan Patel 在一档播客中透露,微软和 OpenAI 已经实现了多数据中心训练。据悉,OpenAI 和 Microsoft 计划将各个超大型园区互联,进行美国范围内的大规模分布式训练。
随着语言模型的 Scaling Law 的有效性验证和持续推进,对于 AI 数据中心的建设需求不断增加。微软、谷歌等科技巨头正在投入数百亿美元疯狂地进行 AI 数据中心的建设。各家科技巨头的 AI 数据中心的布局情况如何?谁更强?为什么多数据中心训练及液冷技术的突破成为巨头们竞争的关键?

目录

01. AI 浪潮下,美科技巨头们正在如何疯狂构建 AI 数据中心?

科技巨头们狂建 AI 数据中心背后的逻辑是什么?为什么科技巨头们解决 AI 数据集群问题更倾向于选择自建而不是租赁?AI 数据中心的趋势将由单一数据中心逐渐转向多数据中心?
02. 美科技巨头的 AI 基础设施能力比拼,进展如何?
科技巨头的 AI 基础设施布局情况如何?谁更强?
03. 微软和 OpenAI 已经实现多数据中心分布式训练?
微软、OpenAI 合力筹建数据中心项目的具体情况如何?微软和 OpenAI 已经实现了多数据中心训练?多数据中心分布式训练是什么?为什么很重要?关键技术及挑战有哪些?
04. 当前 AI 数据中心面临的能源挑战以及瓶颈有哪些?

额外的电力需求如何解决?GPU 部署在哪?

 01   AI 浪潮下,美科技巨头们正在如何疯狂构建 AI 数据中心?

1、随着语言模型的 Scaling Law 的有效性验证和持续推进,对于 AI 数据中心等基础设施建设的需求不断增加。据 SemiAnalysis 分析,从 2021 年到 2024 年底,仅英伟达将出货超过 500 万 H100 的加速器,预计到 2025 年初,AI 数据中心的容量需求将超过 10GW。未来几年,数据中心容量的复合年增长率将从 12-15%加速到 25%。[1]

2、近期,AI 头部公司 OpenAI 向美政府提交了一份报告,提出希望美政府能支持其在美国多个州建立总容量为 5GW 的数据中心,通过构建巨型数据中心来推动更先进的人工智能模型研发。与此同时,科技巨头们都在疯狂地构建以 AI 为核心的数据中心,微软、谷歌等正在投入数百亿美元进行 AI 数据中心的建设。[2]

3、作为重要的AI 基础设施之一,数据中心分为基于传统 IT 架构的传统数据中心、适合物联网(IoT)和边缘计算应用的边缘数据中心以及拥有庞大服务器集群的超大规模数据中心三类。不同的数据中心的设计与其预期用途有关,拥有庞大服务器的超大规模 AI 数据中心主要为 AI 模型的训练和推理提供支持,需要具备以最小的延迟实时处理大量数据的能力。

4、目前来看,科技巨头们解决 AI 数据集群不足的问题主要包括三种方式,自建数据中心、与其他公司/供应商建立合作关系和租赁。

① 例如,马斯克的创业公司 xAI 选择自建的方式,计划建造「超级算力工厂」。建成之后,「超级算力工厂」将拥有10 万块的 GPU 芯片集群,可用于加速 Grok 聊天机器人的开发,减少语音限制。

② OpenAI 和微软则采用合作的模式建立数据中心,通过与 Oracle、CoreWeave 等合作扩建数据中心。近期,OpenAI 和微软正在讨论数据中心扩建的下一阶段,即名为「Fairwater」的项目。微软计划到明年年底在威斯康星州和亚特兰大的两个数据中心站点为 OpenAI 提供约 30 万块英伟达最新的 GPU GB200。[3]

③ 此外,租赁也是一种方式,能够缓解购买和维护硬件设备的巨额成本。但 SemiAnalysis 的 Dylan Patel 认为,「现在最有意义的是建立自己的数据集群而非租赁,或者是与其他公司建立合作关系」。有业内观点认为,从长期来看,自建比租赁在成本效益、控制权、可扩展性等方面更具优势。[4]

④ 同样,Synergy Research Group 首席分析师 John Dinsdale 表示:「虽然超大规模数据中心的数量和平均规模继续以惊人的速度增长,但这些趋势背后却存在着许多复杂性和细微差别。一般而言,自有数据中心比租赁数据中心大得多[5]

5、从需求端看,近期大语言模型训练的一个趋势是,由使用单一数据中心逐渐转向使用多数据中心。据 SemiAnalysis 爆料,Google、OpenAI、Anthropic 等近期已经在执行一个计划,即将其大模型训练从一个站点扩展到多个数据中心(Multi-Datacenter)。

6、此外,高密度液冷 AI 芯片越发受到关注。大多数公司开始引入高密度液冷 AI 芯片,芯片采用英伟达的 GB200 架构。如谷歌部署了数百万的液冷 TPU,液冷 AI 芯片的总容量超过 1 GW。[1] 

 02  美科技巨头们的 AI 基础设施能力比拼,进展如何?

1、据 Statista 的数据显示,全球各地共有逾 1 万个数据中心,美国拥有全球最多的数据中心,占全球数据中心总量的 1/2。其中,超大规模数据中心的数量由 2023 年底的 992 个增长至 2024 年突破千个。

① 据 Synergy 的数据显示,目前亚马逊、微软和谷歌三家公司占据了超大规模数据中心总容量的 60%,其次是 Meta、阿里巴巴、腾讯、苹果、字节跳动,然后是其他相对较小的超大规模运营商。未来正在建设中的超大规模数据中心渠道有 440 个,处于规划、开发或装修的不同阶段。[6] 

表:部分美国科技巨头的 AI 基础设施布局动作比拼(不完全统计)
OpenAI 已破解多数据中心分布式训练?美科技巨头比拼 AI 基础设施能力
 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

👀 往期回顾 👀 

 01  LLM 之后,AI 的下个关键词会是 LWM 吗?

World Labs 要做的 LWM 是什么?LWM 和空间智能有什么关系?LWM 和下一代 AI 有什么关系?3D 才是 AI 的核心表征?空间智能当前有什么进展?世界模型进展如何?…

 02  人形是做通用机器人最合适的形态吗?

为何业内都在做人形通用机器人?人形一定是做通用机器人最合适的形态吗?为什么说 Scaling Laws 才是通用机器人面临的真正难点?如何解决「数据魔咒」的难题?…

 03  Scaling 范式变了?Self-Play 还值得 All In 吗?

OpenAI 的 o1 模型有质的突破吗?Scaling Law 的范式要变了吗?Self-Play 在新范式中重要吗?传统 Self-Play 技术发展如何?Self-Play+LLM 已经能训出更强的模型了吗?…

 04  Machine Psychology,解构 LLM 还是心理学更靠谱吗?

什么是 Machine Psychology?为什么要做 Machine Psychology?做 Machine Psychology 有哪些路线?哪些心理学理论可以用于 LLMs 研究?Machine Psychology 要如何应用?Machine Psychology 下一步要怎么走?…


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

© 版权声明

相关文章

暂无评论

暂无评论...