一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

AI最新资讯6个月前发布 tree

49 0 0

今日应用

站长之家素材

站长素材是一家大型综合设计类素材网站，提供高清图片素材、PSD素材、PPT模板、网页模板、脚本素材、简历模板、矢量素材、3D素材、酷站欣赏、Flash动画等设计素材免费下载和在线预览服务。

今日话题

一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

重点标签 DeepSeek AI、开源模型、混合专家、Transformer架构、强化学习

文章摘要

DeepSeek AI公司近日开源了一款名为DeepSeek-V2的混合专家(MoE)语言模型，该模型在训练成本和推理效率方面具有显著优势。DeepSeek-V2的参数量达到236B，支持128K token的上下文长度，与去年上线的DeepSeek 67B相比，性能更强，训练成本节省了42.5%，KV缓存减少了93.3%，最大生成吞吐量提升了5.76倍。

DeepSeek-V2在多个基准测试中表现优异，包括在AlignBench基准上超过GPT-4，接近GPT-4-turbo，在MT-Bench中与LLaMA3-70B相媲美，并优于Mixtral 8x22B。此外，DeepSeek-V2在数学、代码和推理方面表现出色。

DeepSeek-V2采用Transformer架构，其中每个Transformer块由一个注意力模块和一个前馈网络（FFN）组成。研究团队设计并采用了创新的架构，包括利用低秩键值联合压缩的MLA，以及高性能MoE架构DeepSeekMoE。此外，研究团队还构建了由8.1T token组成的高质量、多源预训练语料库，并在完整的预训练语料库上预训练DeepSeek-V2。

在价格方面，DeepSeek-V2 API的定价为每百万token输入0.14美元，输出0.28美元，与GPT-4-Turbo相比，价格仅为后者的近百分之一。

实验结果显示，即使只有21B个激活参数，DeepSeek-V2仍然达到了开源模型中顶级的性能，成为最强的开源MoE语言模型。DeepSeek-V2 Chat (SFT)和DeepSeek-V2 Chat (RL)在多个评估方面表现出显著改进，尤其是在基于指令的对话任务中。

研究团队还基于AlignBench评估了中文大模型社区的开放式生成能力，DeepSeek-V2 Chat (RL)在中文理解方面表现出色，优于包括GPT-4-Turbo-1106-Preview在内的所有模型。不过，DeepSeek-V2 Chat（RL）的推理能力仍然落后于Erniebot-4.0和GPT-4等巨型模型。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

今日应用

今日话题

文章摘要

文章来源

爆火后反转？「一夜干掉MLP」的KAN：其实我也是MLP

KAN网络技术最全解析——最热KAN能否干掉MLP和Transformer？

相关文章

暂无评论

热门网址

热门标签