今日应用
今日话题
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
重点标签 Snowflake、Arctic、LLM、企业智能、开源
文章摘要
步骤2:撰写摘要
Snowflake公司发布了一款名为Arctic的顶级大型语言模型(LLM),专注于企业级应用。Arctic模型具备两个主要优势:高效智能和开源开放。在企业任务方面,如SQL生成、编程和指令遵循,Arctic表现出色,且训练成本较低。Arctic采用Apache 2.0许可,提供对权重和代码的开放访问,Snowflake还计划开源所有数据方案和研究发现。
Arctic的上下文窗口设置为4K,研究团队正在研发基于注意力池的滑动窗口实现,以支持无限序列生成,并计划将注意力窗口扩展到32K。在性能方面,Arctic在开源LLM中达到了顶级的“企业智能”水平,且训练计算成本不到200万美元,远低于其他类似模型。
Arctic采用独特的Dense-MoE混合transformer架构,结合了10B的密集transformer模型和128×3.66B的残差MoE MLP,共有480B参数和17B活跃参数。研究团队通过三个关键创新实现了高训练效率:MoE专家数量多并采用压缩技术、架构与系统协同设计、聚焦企业数据的课程学习。
推理效率也是Arctic高效的一个重要方面。Arctic代表了MoE模型规模的一次飞跃,使用了更多的专家和总参数。Snowflake通过系统优化和与NVIDIA的合作,实现了Arctic的高效推理。
参考链接:[Snowflake Arctic官方博客](https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/)
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心