仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

AI最新资讯6个月前发布 tree
71 0 0

今日应用


今日话题


仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
 

重点标签 SnowflakeArcticLLM企业智能开源

文章摘要


步骤2:撰写摘要
Snowflake公司发布了一款名为Arctic的顶级大型语言模型(LLM),专注于企业级应用。Arctic模型具备两个主要优势:高效智能开源开放。在企业任务方面,如SQL生成、编程和指令遵循,Arctic表现出色,且训练成本较低。Arctic采用Apache 2.0许可,提供对权重和代码的开放访问,Snowflake还计划开源所有数据方案和研究发现。

Arctic的上下文窗口设置为4K,研究团队正在研发基于注意力池的滑动窗口实现,以支持无限序列生成,并计划将注意力窗口扩展到32K。在性能方面,Arctic在开源LLM中达到了顶级的“企业智能”水平,且训练计算成本不到200万美元,远低于其他类似模型。

Arctic采用独特的Dense-MoE混合transformer架构,结合了10B的密集transformer模型和128×3.66B的残差MoE MLP,共有480B参数和17B活跃参数。研究团队通过三个关键创新实现了高训练效率:MoE专家数量多并采用压缩技术、架构与系统协同设计、聚焦企业数据的课程学习。

推理效率也是Arctic高效的一个重要方面。Arctic代表了MoE模型规模的一次飞跃,使用了更多的专家和总参数。Snowflake通过系统优化和与NVIDIA的合作,实现了Arctic的高效推理。

参考链接:[Snowflake Arctic官方博客](https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/)

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...