英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

AI最新资讯6个月前发布 tree
62 0 0

今日应用


今日话题


英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o
英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o
 

重点标签 Nemotron-4 340B开源模型AI创新合成数据生成性能强大多领域应用

文章摘要


Nemotron-4 340B模型由基础模型Base、指令模型Instruct和奖励模型Reward组成,构建了一个完整的高质量合成数据生成流程。它支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月。在预训练阶段,使用了高达9万亿个token,其中8万亿用于预训练,1万亿用于继续训练以提高质量。指令模型的训练主要在合成数据上完成,而Nemotron-4-340B-Base在常识推理任务中表现出色,与多个知名模型相媲美。

此外,Nemotron-4 340B-Reward在RewardBench上实现了最高准确性,超过了多个专有模型。在硬件要求方面,模型的推理需要8块H200或16块H100/A100 80GB,在FP8精度下则只需8块H100。Nemotron-4 340B的许可对商用非常友好,允许开发者生成所需的所有数据。

Nemotron-4 340B的发布对各行业具有潜在的巨大影响。在医疗领域,高质量合成数据可能带来药物发现、个性化医疗和医学影像的突破;金融领域可能彻底改变欺诈检测、风险评估和客户服务;制造业和零售业方面,特定领域的LLM可以实现预测性维护、供应链优化和个性化客户体验。

然而,Nemotron-4 340B的发布也引发了关于数据隐私和安全的担忧。随着合成数据的普及,企业需要有防护措施来保护敏感信息,并防止滥用。此外,使用合成数据训练AI模型可能引发伦理问题,如数据中的偏见和不准确可能引发意料之外的后果。

英伟达提出的创新方法包括数据预训练、架构设计、训练过程和评估。预训练数据基于三种不同类型的混合,共有9T token。架构方面,Nemotron-4-340B-Base基于仅解码器Transformer架构,采用多种先进技术。训练使用了768个DGX H100节点,每个节点包含8个H100 80GB SXM5 GPU。评估结果显示,Nemotron-4-340B-Base在多个基准测试中取得了优异的成绩。

奖励模型在模型对齐中起着至关重要的作用,英伟达收集了包含10k人类偏好数据的数据集——HelpSteer2,用于开发强大的奖励模型。数据对齐方面,英伟达使用了大约20K的人工标注数据,而数据生成管线则生成了用于监督微调和偏好微调的98%以上的数据。提示生成准备、合成对话生成和合成偏好数据生成是合成数据生成的关键步骤。

对齐算法包括分阶段的监督微调和偏好微调。监督微调是模型对齐的第一步,英伟达设计了一种两阶段的SFT策略。偏好微调则通过学习偏好示例来改进模型。直接偏好优化(DPO)和奖励感知偏好优化(RPO)是两种用于优化模型的方法。

指令模型评估包括自动基准测试和人类评估。Nemotron-4-340B-Instruct在多个基准测试中表现出色,具备很强的竞争力。人类评估则显示,Nemotron-4-340B-Instruct的响应质量与GPT-4相当或更好,特别是在多轮对话中。

总之,Nemotron-4 340B的发布为AI领域带来了重大突破,展示了合成数据生成在LLM训练中的应用潜力,同时也引发了对数据隐私、安全和伦理问题的讨论。随着技术的不断发展,我们可以期待合成数据在未来AI应用中发挥更大的作用。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...