苹果开源OpenELM，大模型开源领域再迎一巨头！

AI最新资讯3个月前发布 tree

36 0 0

今日应用

MotionSound

MotionSound基于业界领先的深度神经网络技术,提供流畅自然的语音合成服务,让人机沟通更自然,便捷

今日话题

苹果开源 OpenELM，大模型开源领域再迎一巨头！
苹果开源OpenELM，大模型开源领域再迎一巨头！

重点标签 tag1、大语言模型、OpenELM、苹果开源、技术创新

文章摘要

苹果开源大语言模型 OpenELM，技术创新与市场策略并重

4月24日，苹果公司开源了其大语言模型OpenELM，这一举措与微软开源Phi-3 Mini相似，旨在为移动设备提供专用的模型。OpenELM包含两种模型：指令微调和预训练，涵盖2.7亿至30亿参数不等，具备生成文本、代码、翻译和总结摘要等功能。尽管最小参数仅为2.7亿，但苹果利用1.8万亿tokens的数据进行预训练，这是其小参数下仍能展现强大性能的关键因素。

深度神经网络库CoreNet同步开源

特别值得注意的是，苹果不仅开源了OpenELM模型，还开源了用于训练该模型的深度神经网络库CoreNet。这一开源行为迅速获得社区的积极响应，仅一天多的时间，Github上的星数就超过了1100颗。CoreNet是苹果多项知名研究的基础，包括MobileOne、CVNets、MobileViT和FastVit等。

开源与闭源两大阵营

目前，大模型领域主要分为开源和闭源两大阵营。闭源领域的代表企业包括OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大讯飞等，而开源阵营则包括Meta、微软、谷歌、百川智能、阿里巴巴、零一万物等。苹果此次加入开源阵营，可能是在模仿谷歌的策略，通过开源吸引用户，再利用闭源产品实现商业化盈利。

OpenELM架构与技术创新

OpenELM采用了无编码器的transformer架构，并在多个方面进行了技术创新。它采用了“层级缩放”策略，有效分配参数，以最少的训练数据获得更好的性能。例如，11亿参数的OpenELM比12亿参数的OLMo模型准确率高出2.36%，而使用的预训练数据仅为后者的一半。此外，OpenELM不使用全连接层中的可学习偏置参数，采用RMSNorm进行预归一化，并使用旋转位置嵌入编码位置信息。它还通过分组查询注意力代替多头注意力，用SwiGLU FFN替换传统前馈网络，并使用Flash注意力计算缩放点积注意力，以更少资源进行训练和推理。

训练流程与数据集

在训练流程中，苹果使用CoreNet作为训练框架，并采用Adam优化算法进行了35万次迭代训练。预训练数据集包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集等公共数据集，共计约1.8万亿tokens数据。苹果还采用了动态分词和数据过滤方法，实现实时过滤和分词，简化实验流程并提高灵活性。

开源诚意与市场影响

苹果此次开源OpenELM显示出其进军大模型领域的决心，为开发者和中小企业带来了福利。与以往仅提供模型权重和推理代码的做法不同，苹果发布了完整的训练、评估框架等，包括数据准备、模型训练、微调和评估流程，以及多个预训练检查点和训练日志，使外界能够深入了解苹果的技术思想和开发流程。这一开源行为不仅体现了苹果的诚意，也预示着开源领域将更加活跃。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

苹果开源OpenELM，大模型开源领域再迎一巨头！

今日应用

今日话题

文章摘要

文章来源

AIGC第一股”出门问问“，在港交所成功上市

商汤发布“日日新SenseNova 5.0”大模型，性能对标GPT-4 Turbo

相关文章

暂无评论

热门网址

热门标签