标签：MoE

微软让MoE长出多个头，大幅提升专家激活率

步骤2：撰写摘要近日，微软研究院和清华大学提出了一种新的模型——多头混合专家（MH-MoE），旨在解决现有混合专家模型中的一些问题。混合专家（MoE）是一种支...

2个月前

模型综述本文探讨了大型 Transformer 模型的效率优化方案。大型 Transformer 模型在各种任务中创造了 SOTA 结果，但其训练和使用成本高昂。文章介绍了提高 Tr...

3个月前

Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型，旨在解决传统 transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型...

4个月前

Databricks开源了一款名为DBRX的1320亿参数大模型，该模型基于专家混合模型（MoE）架构，具备文本生成、代码编写和数学推理等能力。DBRX的性能在多个测试中超...

4个月前

在详细介绍Grok开源的背后，我们首先了解到Grok的开源是马斯克对OpenAI的一种挑战，也是他对开源技术支持的具体体现。Grok的参数量达到了3140亿，是迄今为止...

4个月前