英伟达发布GB200 NVL72,将万亿参数大模型推理效率提升30倍

AI最新资讯4个月前发布 tree
96 0 0

今日应用


今日话题


英伟达发布GB200 NVL72,将万亿参数大模型推理效率提升30倍
英伟达发布GB200 NVL72,将万亿参数大模型推理效率提升30倍
 

重点标签 AIGCGB200 NVL72性能提升数据处理NVIDIA

文章摘要


在2024年的GTC大会上,英伟达发布了专为万亿参数大模型训练和推理设计的新一代AI专用GPU——GB200 NVL72。这款产品在处理大模型时,如MoE(专家混合模型),能够实现多个子模型之间的计算负载分配,并在数千个GPU上进行训练。GB200 NVL72的核心架构是NVIDIA GB200 Grace Blackwell Superchip,通过NVLink-C2C接口连接两个高性能的NVIDIA Blackwell Tensor Core GPU和NVIDIA Grace CPU,提供900GB/s的双向带宽。与上一代H100 GPU相比,GB200 NVL72在训练效率、数据处理和实时推理效率方面分别提升了4倍、6倍和30倍。

GB200的计算托盘基于NVIDIA MGX设计,包含两个Grace CPU和四个Blackwell GPU,提供80petaflops的AI性能和1.7TB的快速内存。GB200支持在NVLink域中使用36和72个GPU,每个机架基于MGX参考设计和NVLink交换系统承载18个计算节点。GB200 NVL72通过使用铜电缆模块密集地打包和互连GPU,同时采用了液冷系统设计,能够降低25倍的成本和能耗。

GB200 NVL72使用了第五代NVLink,可在单个NVLink域中连接多达576个GPU,总带宽超过1PB/s,快速内存可达240TB。每个NVLink交换机托盘提供144个100GB的NVLink端口,完全连接72个Blackwell GPU上的每一个18个NVLink端口。GB200 NVL72在大模型训练和推理方面展现出了前所未有的超强性能,特别是在训练1.8万亿参数的GPT-MoE模型时,性能可提升4倍。

数据处理方面,GB200 NVL72引入了硬件解压缩引擎,支持解压使用LZ4、Deflate和Snappy压缩格式压缩的数据。解压缩引擎加速内存绑定的内核操作,提供高达800 GB/s的性能,使Grace Blackwell在查询基准测试中的执行速度比CPU (Sapphire Rapids)快18倍,比H100快6倍。GB200 NVL72凭借高达8 TB/s的高内存带宽和Grace CPU高速NVlink芯片到芯片,加快了数据库查询的整个过程,使组织在快速获得数据见解的同时大幅度降低数据存储、处理成本。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...