今日应用
今日话题
微软让MoE长出多个头,大幅提升专家激活率
重点标签 混合专家、MoE、稀疏混合专家、SMoE、多头混合专家MH-MoE
文章摘要
步骤2:撰写摘要
近日,微软研究院和清华大学提出了一种新的模型——多头混合专家(MH-MoE),旨在解决现有混合专家模型中的一些问题。混合专家(MoE)是一种支持大型模型的方法,如谷歌的Gemini 1.5和Mixtral 8x7B。然而,这些模型存在两个主要问题:专家激活率低和无法细粒度地分析单个token的多重语义概念。
MH-MoE通过采用多头机制,将每个输入token分成多个子token,并将这些子token分配给一组多样化的专家并行处理,然后再无缝地将它们整合回原来的token形式。这种方法提高了专家激活率,扩展性更好,并且具有更细粒度的理解能力。
MH-MoE的优势包括:
1. 更高的专家激活率和更好的扩展性,实现了90.71%的激活率。
2. 更细粒度的理解能力,通过多头机制关注来自不同专家的不同表征空间的信息。
3. 简单的实现方式,可以与其他SMoE优化方法整合使用。
研究团队还进行了实验,包括语言建模和多模态建模任务,结果表明MH-MoE在多种预训练范式下都有更优的学习效率和语言表征能力。此外,还进行了消融研究和专家激活分析,进一步验证了MH-MoE的效果。
论文标题为《Multi-Head Mixture-of-Experts》,论文和代码已公开。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...