英伟达开源最强通用模型Nemotron-4 340B

AI最新资讯1个月前发布 tree
20 0 0

今日应用


今日话题


英伟达开源最强通用模型Nemotron-4 340B
英伟达开源最强通用模型Nemotron-4 340B
 

重点标签 Nemotron-4 340B开源模型合成数据大语言模型性能提升

文章摘要


英伟达宣布推出Nemotron-4 340B,包含一系列开源模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),适用于医疗健康、金融、制造、零售等行业的商业应用。高质量的训练数据对于自定义LLM的性能至关重要,但获取强大数据集往往成本高昂且难以访问。Nemotron-4 340B通过开放模型许可,为开发人员提供免费、可扩展的合成数据生成方式,帮助构建强大的LLM。

Nemotron-4 340B系列包括基础、Instruct和Reward模型,形成生成训练和改进LLM的合成数据的pipeline。这些模型与NVIDIA NeMo开源框架和TensorRT-LLM库配合使用,进行优化。Nemotron-4 340B现已可在Hugging Face下载,并将通过NVIDIA NIM微服务在ai.nvidia.com提供。

Nemotron-4 340B Instruct模型生成多样化的合成数据,模仿现实世界数据特征,提高数据质量和LLM性能。Reward模型根据可用性、正确性、连贯性等属性对响应评分,指导迭代改进。研究人员可结合专有数据和HelpSteer2数据集,定制基础模型。

Nemotron-4-340B-Base模型采用标准仅解码器Transformer架构,具有因果注意力掩码、旋转位置嵌入等特性。模型经过9万亿个token训练,可通过NeMo框架定制。NeMo提供多种微调方法,如低秩自适应,提升模型质量。企业可通过NVIDIA AI Enterprise软件平台访问NeMo和TensorRT-LLM。

评测数据显示,Nemotron-4-340B在常识推理、指令遵循、聊天功能等任务上表现优异,超越Llama-3等模型。这是否意味着业界最强大模型已经出现,值得关注。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...