今日应用
今日话题
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
文章摘要
步骤2:撰写摘要
苹果公司最近发布了一款名为OpenELM的高效语言模型族,该模型基于开源训练和推理框架。OpenELM包含四种变体,参数量分别为270M、450M、1.1B和3B,这些模型都是基于公开数据集进行预训练和微调的。OpenELM的核心特点是逐层缩放,即每个Transformer层都有不同的配置,从而实现更有效的跨层参数分配。
苹果公司还发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。OpenELM的架构采用只有解码器的transformer架构,并使用了一系列特定的技术和方法,如RMSNorm预标准化、旋转位置嵌入(ROPE)、分组查询注意力(GQA)和SwiGLU FFN等。
在预训练阶段,苹果使用了约1.8万亿个token的公共数据集。训练过程中,苹果使用了自家开源的CoreNet库,训练了35万次,最终得到了四种OpenELM变体。实验结果显示,OpenELM在零样本和少样本设置下的性能优于现有的开源LLM。
尽管OpenELM在参数数量相似的情况下准确度更高,但其速度比OLMo慢。性能分析表明,OpenELM的处理时间的相当部分可归因于对RMSNorm的简单实现。研究者计划在未来的工作中探索优化策略以进一步提高OpenELM的推理效率。
更多详细信息,请参阅原论文。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...