英伟达发布GB200 NVL72，将万亿参数大模型推理效率提升30倍

AI最新资讯7个月前发布 tree

124 0 0

今日应用

茅茅虫 – 论文查重

茅茅虫论文写作 - 写作助手、论文查重、论文降重、论文答辩，让天下没有难写的论文！

今日话题

英伟达发布GB200 NVL72，将万亿参数大模型推理效率提升30倍

重点标签 AIGC、GB200 NVL72、性能提升、数据处理、NVIDIA

文章摘要

在2024年的GTC大会上，英伟达发布了专为万亿参数大模型训练和推理设计的新一代AI专用GPU——GB200 NVL72。这款产品在处理大模型时，如MoE（专家混合模型），能够实现多个子模型之间的计算负载分配，并在数千个GPU上进行训练。GB200 NVL72的核心架构是NVIDIA GB200 Grace Blackwell Superchip，通过NVLink-C2C接口连接两个高性能的NVIDIA Blackwell Tensor Core GPU和NVIDIA Grace CPU，提供900GB/s的双向带宽。与上一代H100 GPU相比，GB200 NVL72在训练效率、数据处理和实时推理效率方面分别提升了4倍、6倍和30倍。

GB200的计算托盘基于NVIDIA MGX设计，包含两个Grace CPU和四个Blackwell GPU，提供80petaflops的AI性能和1.7TB的快速内存。GB200支持在NVLink域中使用36和72个GPU，每个机架基于MGX参考设计和NVLink交换系统承载18个计算节点。GB200 NVL72通过使用铜电缆模块密集地打包和互连GPU，同时采用了液冷系统设计，能够降低25倍的成本和能耗。

GB200 NVL72使用了第五代NVLink，可在单个NVLink域中连接多达576个GPU，总带宽超过1PB/s，快速内存可达240TB。每个NVLink交换机托盘提供144个100GB的NVLink端口，完全连接72个Blackwell GPU上的每一个18个NVLink端口。GB200 NVL72在大模型训练和推理方面展现出了前所未有的超强性能，特别是在训练1.8万亿参数的GPT-MoE模型时，性能可提升4倍。

在数据处理方面，GB200 NVL72引入了硬件解压缩引擎，支持解压使用LZ4、Deflate和Snappy压缩格式压缩的数据。解压缩引擎加速内存绑定的内核操作，提供高达800 GB/s的性能，使Grace Blackwell在查询基准测试中的执行速度比CPU (Sapphire Rapids)快18倍，比H100快6倍。GB200 NVL72凭借高达8 TB/s的高内存带宽和Grace CPU高速NVlink芯片到芯片，加快了数据库查询的整个过程，使组织在快速获得数据见解的同时大幅度降低数据存储、处理成本。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

英伟达发布GB200 NVL72，将万亿参数大模型推理效率提升30倍

今日应用

今日话题

文章摘要

文章来源

专访CeMeta森宇宙 | 首个面向家电家居行业营销领域的AI大模型

3140亿参数，可商用！马斯克开源大模型Grok-1

相关文章

暂无评论

热门网址

热门标签