标签：强化学习

ClutterGen：用于机器人学习的杂乱场景生成器

摘要：在机器人学习领域，模拟环境为开发和测试算法提供了一个可控且多样化的平台。然而，物体布局的随机化在物理法则的约束下面临挑战。杜克大学研究人员提...

2周前

为了应对这一挑战，OpenLLMAI、字节跳动、网易伏羲AI Lab和阿里巴巴的联合团队提出了一种新的开源框架OpenRLHF，旨在简化大规模RLHF训练的复杂性。该框架通过...

2个月前

日内瓦大学、微软研究院和爱丁堡大学的研究人员联合开发了基于扩散模型的世界模型—DIAMOND。该模型旨在通过捕捉视觉细节和建模复杂多模态分布，提高智能体训...

2个月前

日内瓦大学、爱丁堡大学和微软研究院的研究者联合提出了一种名为DIAMOND的强化学习智能体，该智能体在扩散世界模型中接受训练。DIAMOND在Atari 100k基准测试...

2个月前

DeepSeek AI公司近日开源了一款名为DeepSeek-V2的混合专家(MoE)语言模型，该模型在训练成本和推理效率方面具有显著优势。DeepSeek-V2的参数量达到236B，支持1...

3个月前

斯坦福大学的研究团队最近发表了一篇论文，探讨了大型语言模型（LLM）与人类意图对齐的方法，特别是强化学习（RLHF）在这一领域的应用。他们提出了一种直接对...

3个月前