DeepMind升级Transformer，前向通过FLOPs最多可降一半

AI最新资讯12个月前发布 tree

147 0 0

今日应用

耳聆网

耳聆网是中国最专业的声音分享平台，汇聚了国内众多专业录音师和业余声音爱好者，拥有庞大的声音资源云库和完善的版权保护及授权机制，满足音乐创作、影视后期、游戏配乐等领域的音频素材需求。

今日话题

DeepMind升级Transformer，前向通过FLOPs最多可降一半

重点标签 Transformer、混合深度、DeepMind、计算效率、自适应计算

文章摘要

DeepMind 的最新研究提出了一种名为 Mixture-of-Depths（MoD）的 Transformer 改进方法，旨在提高语言模型的计算效率。MoD 通过动态地为每个 token 分配计算预算，从而减少不必要的计算。该团队的实验结果显示，在保持网络性能的同时，MoD Transformer 能够显著降低前向传播的 FLOPs。具体来说，MoD 采用了类似于混合专家（MoE）Transformer 的方法，但有所不同，它在 MLP 和多头注意力上同时应用路由机制。此外，MoD 还支持用户权衡性能与速度，可以选择使用与常规 Transformer 同等的训练 FLOPs 来训练 MoD Transformer，或者使用更少的计算量达到同样的训练损失。

MoD 实现了条件式计算技术，仅在需要时执行计算，从而减少总计算量。它采用了专家选择型路由方案，避免了负载平衡问题，并确保了最关键的 token 参与模块计算。为了解决自回归采样中的问题，MoD 引入了辅助损失和辅助 MLP 预测器。实验结果表明，MoD Transformer 在训练和自回归评估中均表现出色，且可以与 MoE 模型整合，形成 MoDE 模型。这项研究突显了 Transformer 架构的潜力，为未来的 AI 研究和应用提供了新的方向。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DeepMind升级Transformer，前向通过FLOPs最多可降一半

今日应用

今日话题

文章摘要

文章来源

Sora加入Adobe全家桶，视频改图加戏样样行：PR大更新预告

极市直播预告｜CVPR2024 Highlight：无参数无训练的网络也能进行3D表征学习吗？

相关文章

暂无评论

热门网址

热门标签