标签:Transformer架构

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

DeepSeek AI公司近日开源了一款名为DeepSeek-V2的混合专家(MoE)语言模型,该模型在训练成本和推理效率方面具有显著优势。DeepSeek-V2的参数量达到236B,支持1...