苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

AI最新资讯3个月前发布 tree

39 0 0

今日应用

小鱼速读

小鱼速读 - 有声小说

今日话题

苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

重点标签 苹果、机器之心、ChatGPT、Meta、开源

文章摘要

步骤2：撰写摘要
苹果公司最近发布了一款名为OpenELM的高效语言模型族，该模型基于开源训练和推理框架。OpenELM包含四种变体，参数量分别为270M、450M、1.1B和3B，这些模型都是基于公开数据集进行预训练和微调的。OpenELM的核心特点是逐层缩放，即每个Transformer层都有不同的配置，从而实现更有效的跨层参数分配。

苹果公司还发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。OpenELM的架构采用只有解码器的transformer架构，并使用了一系列特定的技术和方法，如RMSNorm预标准化、旋转位置嵌入（ROPE）、分组查询注意力（GQA）和SwiGLU FFN等。

在预训练阶段，苹果使用了约1.8万亿个token的公共数据集。训练过程中，苹果使用了自家开源的CoreNet库，训练了35万次，最终得到了四种OpenELM变体。实验结果显示，OpenELM在零样本和少样本设置下的性能优于现有的开源LLM。

尽管OpenELM在参数数量相似的情况下准确度更高，但其速度比OLMo慢。性能分析表明，OpenELM的处理时间的相当部分可归因于对RMSNorm的简单实现。研究者计划在未来的工作中探索优化策略以进一步提高OpenELM的推理效率。

更多详细信息，请参阅原论文。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

今日应用

今日话题

文章摘要

文章来源

硬控设计人一分钟，加持大模型的Adobe，PS起来更香了

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

相关文章

暂无评论

热门网址

热门标签