标签:MoE

微软让MoE长出多个头,大幅提升专家激活率

步骤2:撰写摘要近日,微软研究院和清华大学提出了一种新的模型——多头混合专家(MH-MoE),旨在解决现有混合专家模型中的一些问题。混合专家(MoE)是一种支...

一文总结当下常用的大型 transformer 效率优化方案

模型综述本文探讨了大型 Transformer 模型的效率优化方案。大型 Transformer 模型在各种任务中创造了 SOTA 结果,但其训练和使用成本高昂。文章介绍了提高 Tr...

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型,旨在解决传统 transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型...

1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

Databricks开源了一款名为DBRX的1320亿参数大模型,该模型基于专家混合模型(MoE)架构,具备文本生成、代码编写和数学推理等能力。DBRX的性能在多个测试中超...

马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星

在详细介绍Grok开源的背后,我们首先了解到Grok的开源是马斯克对OpenAI的一种挑战,也是他对开源技术支持的具体体现。Grok的参数量达到了3140亿,是迄今为止...