今日应用
今日话题
这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单
重点标签 OpenRLHF、OpenAI、强化学习、大型语言模型、技术创新
文章摘要
为了应对这一挑战,OpenLLMAI、字节跳动、网易伏羲AI Lab和阿里巴巴的联合团队提出了一种新的开源框架OpenRLHF,旨在简化大规模RLHF训练的复杂性。该框架通过重新设计模型调度,支持超过700亿参数的模型进行RLHF训练,同时具备易用性、高性能和分布式RLHF的特点。
OpenRLHF框架的主要特点包括:
– 调度优化:通过使用Ray进行模型安放和细粒度编排,OpenRLHF能够在多台GPU上高效分配至少四个组件模型(actor、critic、奖励、参考),解决了单GPU内存限制的问题。
– 性能优化:通过采用vLLM的张量并行化技术和DeepSpeed的训练优化,OpenRLHF显著提高了样本生成速度,并支持更大型的LLM模型。
– 训练稳定性:OpenRLHF通过一系列技巧,如仅在文本末端token上预测奖励、使用KL散度损失项等,确保了PPO等强化学习算法的稳定性。
– 易用性:OpenRLHF提供了与Hugging Face软件库完全兼容的一键可用训练脚本,简化了用户的操作流程。
此外,OpenRLHF还支持混合专家(MoE)、Jamba和QLoRA等常用技术,并实现了直接偏好优化(DPO)和Kahneman-Tversky优化(KTO)等多种对齐算法。这一全面的RLHF训练框架为大型语言模型的性能提升和价值对齐提供了强有力的支持。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...