微软让MoE长出多个头,大幅提升专家激活率

AI最新资讯2个月前发布 tree
31 0 0

今日应用


今日话题


微软让MoE长出多个头,大幅提升专家激活率
微软让MoE长出多个头,大幅提升专家激活率
 

重点标签 混合专家MoE稀疏混合专家SMoE多头混合专家MH-MoE

文章摘要


步骤2:撰写摘要
近日,微软研究院和清华大学提出了一种新的模型——多头混合专家(MH-MoE,旨在解决现有混合专家模型中的一些问题。混合专家(MoE)是一种支持大型模型的方法,如谷歌的Gemini 1.5和Mixtral 8x7B。然而,这些模型存在两个主要问题:专家激活率低和无法细粒度地分析单个token的多重语义概念。

MH-MoE通过采用多头机制,将每个输入token分成多个子token,并将这些子token分配给一组多样化的专家并行处理,然后再无缝地将它们整合回原来的token形式。这种方法提高了专家激活率,扩展性更好,并且具有更细粒度的理解能力。

MH-MoE的优势包括:
1. 更高的专家激活率和更好的扩展性,实现了90.71%的激活率。
2. 更细粒度的理解能力,通过多头机制关注来自不同专家的不同表征空间的信息。
3. 简单的实现方式,可以与其他SMoE优化方法整合使用。

研究团队还进行了实验,包括语言建模和多模态建模任务,结果表明MH-MoE在多种预训练范式下都有更优的学习效率和语言表征能力。此外,还进行了消融研究和专家激活分析,进一步验证了MH-MoE的效果。

论文标题为《Multi-Head Mixture-of-Experts》,论文和代码已公开。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...