标签:强化学习

ClutterGen:用于机器人学习的杂乱场景生成器

摘要:在机器人学习领域,模拟环境为开发和测试算法提供了一个可控且多样化的平台。然而,物体布局的随机化在物理法则的约束下面临挑战。杜克大学研究人员提...

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

为了应对这一挑战,OpenLLMAI、字节跳动、网易伏羲AI Lab和阿里巴巴的联合团队提出了一种新的开源框架OpenRLHF,旨在简化大规模RLHF训练的复杂性。该框架通过...

基于扩散模型的,开源世界模型DIAMOND

日内瓦大学、微软研究院和爱丁堡大学的研究人员联合开发了基于扩散模型的世界模型—DIAMOND。该模型旨在通过捕捉视觉细节和建模复杂多模态分布,提高智能体训...

世界模型也扩散!训练出的智能体竟然不错

日内瓦大学、爱丁堡大学和微软研究院的研究者联合提出了一种名为DIAMOND的强化学习智能体,该智能体在扩散世界模型中接受训练。DIAMOND在Atari 100k基准测试...

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

DeepSeek AI公司近日开源了一款名为DeepSeek-V2的混合专家(MoE)语言模型,该模型在训练成本和推理效率方面具有显著优势。DeepSeek-V2的参数量达到236B,支持1...

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

斯坦福大学的研究团队最近发表了一篇论文,探讨了大型语言模型(LLM)与人类意图对齐的方法,特别是强化学习(RLHF)在这一领域的应用。他们提出了一种直接对...