马斯克烧几十亿美元造最大超算中心,10万块H100训练Grok追赶GPT-4o

AI最新资讯2个月前发布 tree
28 0 0

今日应用


今日话题


马斯克烧几十亿美元造最大超算中心,10万块H100训练Grok追赶GPT-4o
马斯克烧几十亿美元造最大超算中心,10万块H100训练Grok追赶GPT-4o
 

重点标签 xAI超算中心Grok 2训练芯片短缺电力供应AI算力竞争

文章摘要


马斯克旗下的人工智能初创公司xAI计划建造一个超算中心,预计2025年秋季建成,规模将是当前最大GPU集群的四倍。这个「超级计算工厂」旨在保证Grok 2及之后版本的训练,因为马斯克认为算力是AI发展的关键制约因素。xAI已经从Oracle租用了约1.6万个H100芯片的服务器,是这些芯片的最大订单来源。尽管英伟达宣布将生产全新架构Blackwell的B100 GPU,马斯克仍计划采购H100,因为AI竞争中时间至关重要。

然而,即使「超级计算工厂」按时交付,明年秋天是否仍具有规模优势仍是未知数。Meta、微软和OpenAI也在积极扩展其算力,计划部署数十万至百万个GPU,并讨论开发价值1000亿美元的超级计算机。这场算力之战中,英伟达作为芯片供应商可能成为最终赢家。

马斯克还指出,电力供应在未来一两年将变得至关重要,可能会取代芯片成为AI发展的最大限制因素。一个拥有10万GPU的数据中心需要100兆瓦的专用电力,因此「超级计算工厂」的选址需要考虑电力供应。数据中心通常建在电力便宜且供应充足的偏远地区,如微软和OpenAI在威斯康星州建造的大型数据中心,以及亚马逊云服务在亚利桑那州的数据中心。特斯拉总部所在的德克萨斯州奥斯汀市是一个可能的选址。

训练AI模型是一个极其耗电的过程。例如,训练GPT-3的耗电量约为1287兆瓦时,相当于130个美国家庭每年的用电量。AI公司可能很快开始争夺降压变压器,以将高压电流转换为电网可用的电力。马斯克认为,AI行业需要「transformers for Transformers」,即在芯片之后,电力供应和转换将成为关键因素。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC新智界

© 版权声明

相关文章

暂无评论

暂无评论...