今日应用
今日话题
DeepMind升级Transformer,前向通过FLOPs最多可降一半
重点标签 Transformer、混合深度、DeepMind、计算效率、自适应计算
文章摘要
DeepMind 的最新研究提出了一种名为 Mixture-of-Depths(MoD)的 Transformer 改进方法,旨在提高语言模型的计算效率。MoD 通过动态地为每个 token 分配计算预算,从而减少不必要的计算。该团队的实验结果显示,在保持网络性能的同时,MoD Transformer 能够显著降低前向传播的 FLOPs。具体来说,MoD 采用了类似于混合专家(MoE)Transformer 的方法,但有所不同,它在 MLP 和多头注意力上同时应用路由机制。此外,MoD 还支持用户权衡性能与速度,可以选择使用与常规 Transformer 同等的训练 FLOPs 来训练 MoD Transformer,或者使用更少的计算量达到同样的训练损失。
MoD 实现了条件式计算技术,仅在需要时执行计算,从而减少总计算量。它采用了专家选择型路由方案,避免了负载平衡问题,并确保了最关键的 token 参与模块计算。为了解决自回归采样中的问题,MoD 引入了辅助损失和辅助 MLP 预测器。实验结果表明,MoD Transformer 在训练和自回归评估中均表现出色,且可以与 MoE 模型整合,形成 MoDE 模型。这项研究突显了 Transformer 架构的潜力,为未来的 AI 研究和应用提供了新的方向。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...