标签:混合深度

DeepMind升级Transformer,前向通过FLOPs最多可降一半

DeepMind 的最新研究提出了一种名为 Mixture-of-Depths(MoD)的 Transformer 改进方法,旨在提高语言模型的计算效率。MoD 通过动态地为每个 token 分配计算...