微软让MoE长出多个头，大幅提升专家激活率

AI最新资讯2个月前发布 tree

31 0 0

今日应用

电影先生

热播电影、电视剧、动漫、综艺、各种话语最新影片，在线观看

今日话题

微软让MoE长出多个头，大幅提升专家激活率

重点标签 混合专家、MoE、稀疏混合专家、SMoE、多头混合专家MH-MoE

文章摘要

步骤2：撰写摘要
近日，微软研究院和清华大学提出了一种新的模型——多头混合专家（MH-MoE），旨在解决现有混合专家模型中的一些问题。混合专家（MoE）是一种支持大型模型的方法，如谷歌的Gemini 1.5和Mixtral 8x7B。然而，这些模型存在两个主要问题：专家激活率低和无法细粒度地分析单个token的多重语义概念。

MH-MoE通过采用多头机制，将每个输入token分成多个子token，并将这些子token分配给一组多样化的专家并行处理，然后再无缝地将它们整合回原来的token形式。这种方法提高了专家激活率，扩展性更好，并且具有更细粒度的理解能力。

MH-MoE的优势包括：
1. 更高的专家激活率和更好的扩展性，实现了90.71%的激活率。
2. 更细粒度的理解能力，通过多头机制关注来自不同专家的不同表征空间的信息。
3. 简单的实现方式，可以与其他SMoE优化方法整合使用。

研究团队还进行了实验，包括语言建模和多模态建模任务，结果表明MH-MoE在多种预训练范式下都有更优的学习效率和语言表征能力。此外，还进行了消融研究和专家激活分析，进一步验证了MH-MoE的效果。

论文标题为《Multi-Head Mixture-of-Experts》，论文和代码已公开。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

微软让MoE长出多个头，大幅提升专家激活率

今日应用

今日话题

文章摘要

文章来源

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

大模型思维链（Chain-of-Thought）技术原理

相关文章

暂无评论

热门网址

热门标签