苹果开源OpenELM,大模型开源领域再迎一巨头!

AI最新资讯4周前发布 tree
16 0 0

今日应用


今日话题


苹果开源OpenELM,大模型开源领域再迎一巨头!
苹果开源OpenELM,大模型开源领域再迎一巨头!
 

重点标签 tag1大语言模型OpenELM苹果开源技术创新

文章摘要


苹果开源大语言模型OpenELM技术创新与市场策略并重

4月24日,苹果公司开源了其大语言模型OpenELM,这一举措与微软开源Phi-3 Mini相似,旨在为移动设备提供专用的模型。OpenELM包含两种模型:指令微调和预训练,涵盖2.7亿至30亿参数不等,具备生成文本、代码、翻译和总结摘要等功能。尽管最小参数仅为2.7亿,但苹果利用1.8万亿tokens的数据进行预训练,这是其小参数下仍能展现强大性能的关键因素。

深度神经网络库CoreNet同步开源

特别值得注意的是,苹果不仅开源了OpenELM模型,还开源了用于训练该模型的深度神经网络库CoreNet。这一开源行为迅速获得社区的积极响应,仅一天多的时间,Github上的星数就超过了1100颗。CoreNet是苹果多项知名研究的基础,包括MobileOne、CVNets、MobileViT和FastVit等。

开源与闭源两大阵营

目前,大模型领域主要分为开源和闭源两大阵营。闭源领域的代表企业包括OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大讯飞等,而开源阵营则包括Meta、微软、谷歌、百川智能、阿里巴巴、零一万物等。苹果此次加入开源阵营,可能是在模仿谷歌的策略,通过开源吸引用户,再利用闭源产品实现商业化盈利。

OpenELM架构与技术创新

OpenELM采用了无编码器的transformer架构,并在多个方面进行了技术创新。它采用了“层级缩放”策略,有效分配参数,以最少的训练数据获得更好的性能。例如,11亿参数的OpenELM比12亿参数的OLMo模型准确率高出2.36%,而使用的预训练数据仅为后者的一半。此外,OpenELM不使用全连接层中的可学习偏置参数,采用RMSNorm进行预归一化,并使用旋转位置嵌入编码位置信息。它还通过分组查询注意力代替多头注意力,用SwiGLU FFN替换传统前馈网络,并使用Flash注意力计算缩放点积注意力,以更少资源进行训练和推理。

训练流程与数据集

在训练流程中,苹果使用CoreNet作为训练框架,并采用Adam优化算法进行了35万次迭代训练。预训练数据集包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集等公共数据集,共计约1.8万亿tokens数据。苹果还采用了动态分词和数据过滤方法,实现实时过滤和分词,简化实验流程并提高灵活性。

开源诚意与市场影响

苹果此次开源OpenELM显示出其进军大模型领域的决心,为开发者和中小企业带来了福利。与以往仅提供模型权重和推理代码的做法不同,苹果发布了完整的训练、评估框架等,包括数据准备、模型训练、微调和评估流程,以及多个预训练检查点和训练日志,使外界能够深入了解苹果的技术思想和开发流程。这一开源行为不仅体现了苹果的诚意,也预示着开源领域将更加活跃。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...