标签:强化学习

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

DeepSeek AI公司近日开源了一款名为DeepSeek-V2的混合专家(MoE)语言模型,该模型在训练成本和推理效率方面具有显著优势。DeepSeek-V2的参数量达到236B,支持1...

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

斯坦福大学的研究团队最近发表了一篇论文,探讨了大型语言模型(LLM)与人类意图对齐的方法,特别是强化学习(RLHF)在这一领域的应用。他们提出了一种直接对...