Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

AI最新资讯2个月前发布 tree
22 0 0

今日应用


[sIte_card ids="230"]

今日话题


Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
 

重点标签 Checkpoint系统大模型训练字节跳动存储性能IO性能优化

文章摘要


大模型训练过程中,软硬件故障频发,Checkpoint系统作为关键技术,负责模型状态的存储与恢复,以提高训练效率。字节跳动豆包大模型团队与香港大学联合开发了ByteCheckpoint系统,它是一个与PyTorch原生兼容、支持多种训练框架的Checkpointing系统,具有高效的读写能力和自动重新切分功能。与现有方法相比,ByteCheckpoint在Checkpoint保存性能上提升了529.22倍,在加载性能上提升了3.51倍,大幅降低了用户的使用成本,提高了系统的易用性。

Meta公司在16384块H100 80GB训练集群上进行的Llama3 405B训练中,54天内发生了419次中断,平均每三小时崩溃一次,这一问题引起了业界的广泛关注。大型训练系统中软硬件故障的频繁发生,使得提高训练效率成为大模型迭代的重要影响因素。Checkpoint技术在其中扮演了关键角色,通过频繁保存训练中的模型、优化器、数据读取器状态,减少训练进度损失。

ByteCheckpoint系统的设计解决了现有Checkpoint技术面临的四个挑战:1) 现有系统设计存在缺陷,增加了训练的I/O开销;2) Checkpoint重新切分困难,手动切分脚本开发维护成本高;3) 不同训练框架的Checkpoint模块割裂,统一管理和性能优化困难;4) 分布式训练系统用户面临多重困扰,如高效存储Checkpoint、重新切分Checkpoint以及上传训练产物等。

ByteCheckpoint采用了元数据/张量数据分离的存储架构,实现了Checkpoint管理与训练框架和并行度的解耦合。它还提出了异步张量合并技术,解决了不规则张量切分问题,提高了Checkpoint存储性能。系统架构包括API层、Planner层、Execution层和Storage层,分层设计增强了系统的可扩展性。

在实验中,ByteCheckpoint在不同模型规模和训练框架下,相比基线方法在Checkpoint存储性能上取得了显著提升,如在576卡SparseGPT 110B – Megatron-LM训练任务中性能提升了66.65~74.55倍,在256卡DenseGPT 10B – FSDP训练任务中性能提升了529.22倍。在读取性能测试中,ByteCheckpoint也取得了1.55~3.37倍的性能提升。

字节跳动豆包大模型团队成立于2023年,致力于开发业界最先进的AI大模型技术,成为世界一流的研究团队。团队正在持续吸引优秀人才加入,以创新、开放和充满创新精神的氛围,推进大模型训练提效工作取得更多进展和成果。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...