今日应用
今日话题
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
重点标签 DeepSeek AI、开源模型、混合专家、Transformer架构、强化学习
文章摘要
DeepSeek AI公司近日开源了一款名为DeepSeek-V2的混合专家(MoE)语言模型,该模型在训练成本和推理效率方面具有显著优势。DeepSeek-V2的参数量达到236B,支持128K token的上下文长度,与去年上线的DeepSeek 67B相比,性能更强,训练成本节省了42.5%,KV缓存减少了93.3%,最大生成吞吐量提升了5.76倍。
DeepSeek-V2在多个基准测试中表现优异,包括在AlignBench基准上超过GPT-4,接近GPT-4-turbo,在MT-Bench中与LLaMA3-70B相媲美,并优于Mixtral 8x22B。此外,DeepSeek-V2在数学、代码和推理方面表现出色。
DeepSeek-V2采用Transformer架构,其中每个Transformer块由一个注意力模块和一个前馈网络(FFN)组成。研究团队设计并采用了创新的架构,包括利用低秩键值联合压缩的MLA,以及高性能MoE架构DeepSeekMoE。此外,研究团队还构建了由8.1T token组成的高质量、多源预训练语料库,并在完整的预训练语料库上预训练DeepSeek-V2。
在价格方面,DeepSeek-V2 API的定价为每百万token输入0.14美元,输出0.28美元,与GPT-4-Turbo相比,价格仅为后者的近百分之一。
实验结果显示,即使只有21B个激活参数,DeepSeek-V2仍然达到了开源模型中顶级的性能,成为最强的开源MoE语言模型。DeepSeek-V2 Chat (SFT)和DeepSeek-V2 Chat (RL)在多个评估方面表现出显著改进,尤其是在基于指令的对话任务中。
研究团队还基于AlignBench评估了中文大模型社区的开放式生成能力,DeepSeek-V2 Chat (RL)在中文理解方面表现出色,优于包括GPT-4-Turbo-1106-Preview在内的所有模型。不过,DeepSeek-V2 Chat(RL)的推理能力仍然落后于Erniebot-4.0和GPT-4等巨型模型。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心