今日应用
今日话题
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
重点标签 RLHF、Uni-RLHF、多反馈标注、众包数据集、开源平台
文章摘要
Uni-RLHF平台的亮点:
– 多反馈类型通用标注平台:支持多种在线环境和离线数据集,具有查询采样器、交互式用户界面和反馈翻译器等功能。
– 适用于强化学习的标准反馈编码格式:Uni-RLHF提出了一种标准化的反馈编码格式和对应的训练方法,支持五种反馈类型。
– 大规模众包标注流水线:通过并行的众包数据注释和过滤,促进大规模注释数据集的创建。
– 离线RLHF基准实验:利用收集到的众包反馈数据集对下游决策任务进行了大量实验,评估各种不同的设计选择及其对应的优势。
实验结果:
– 基于IQL基线效果最稳定,众包标签(CS)能够表现出和IQL-Oracle相当的优异性能。
– TFM结构在稳定性和性能两方面均领先于MLP结构,尤其是在稀疏奖励设置的环境中。
– 众包标签(CS)在大多数环境中能够达到相当甚至超越合成标签(ST)的效果。
未来展望:
– 评估人类的非理性和偏向性:如何在嘈杂的标签数据中进行学习是值得研究的方向。
– 不完美奖励函数修正:如何基于奖励塑形、先验知识等进一步的基于该奖励函数进行修正也是重要的研究问题。
– 多反馈类型的组合作用:在同一个任务中聚合图像、评估、关键帧等各类型反馈方式依然值得进一步研究。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...