DeepMind升级Transformer,前向通过FLOPs最多可降一半

AI最新资讯3个月前发布 tree
55 0 0

今日应用


今日话题


DeepMind升级Transformer,前向通过FLOPs最多可降一半
DeepMind升级Transformer,前向通过FLOPs最多可降一半
 

重点标签 Transformer混合深度DeepMind计算效率自适应计算

文章摘要


DeepMind 的最新研究提出了一种名为 Mixture-of-Depths(MoD)的 Transformer 改进方法,旨在提高语言模型的计算效率。MoD 通过动态地为每个 token 分配计算预算,从而减少不必要的计算。该团队的实验结果显示,在保持网络性能的同时,MoD Transformer 能够显著降低前向传播的 FLOPs。具体来说,MoD 采用了类似于混合专家(MoE)Transformer 的方法,但有所不同,它在 MLP 和多头注意力上同时应用路由机制。此外,MoD 还支持用户权衡性能与速度,可以选择使用与常规 Transformer 同等的训练 FLOPs 来训练 MoD Transformer,或者使用更少的计算量达到同样的训练损失。

MoD 实现了条件式计算技术,仅在需要时执行计算,从而减少总计算量。它采用了专家选择型路由方案,避免了负载平衡问题,并确保了最关键的 token 参与模块计算。为了解决自回归采样中的问题,MoD 引入了辅助损失和辅助 MLP 预测器。实验结果表明,MoD Transformer 在训练和自回归评估中均表现出色,且可以与 MoE 模型整合,形成 MoDE 模型。这项研究突显了 Transformer 架构的潜力,为未来的 AI 研究和应用提供了新的方向。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...