苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

AI最新资讯4周前发布 tree
19 0 0

今日应用


今日话题


苹果开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
 

重点标签 苹果机器之心ChatGPTMeta开源

文章摘要


步骤2:撰写摘要
苹果公司最近发布了一款名为OpenELM的高效语言模型族,该模型基于开源训练和推理框架。OpenELM包含四种变体,参数量分别为270M、450M、1.1B和3B,这些模型都是基于公开数据集进行预训练和微调的。OpenELM的核心特点是逐层缩放,即每个Transformer层都有不同的配置,从而实现更有效的跨层参数分配。

苹果公司还发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。OpenELM的架构采用只有解码器的transformer架构,并使用了一系列特定的技术和方法,如RMSNorm预标准化、旋转位置嵌入(ROPE)、分组查询注意力(GQA)和SwiGLU FFN等。

在预训练阶段,苹果使用了约1.8万亿个token的公共数据集。训练过程中,苹果使用了自家开源的CoreNet库,训练了35万次,最终得到了四种OpenELM变体。实验结果显示,OpenELM在零样本和少样本设置下的性能优于现有的开源LLM。

尽管OpenELM在参数数量相似的情况下准确度更高,但其速度比OLMo慢。性能分析表明,OpenELM的处理时间的相当部分可归因于对RMSNorm的简单实现。研究者计划在未来的工作中探索优化策略以进一步提高OpenELM的推理效率。

更多详细信息,请参阅原论文。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...