ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

AI最新资讯2个月前发布 tree
46 0 0

今日应用


今日话题


ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
 

重点标签 RLHFUni-RLHF多反馈标注众包数据集开源平台

文章摘要


Uni-RLHF平台的亮点:
多反馈类型通用标注平台:支持多种在线环境和离线数据集,具有查询采样器、交互式用户界面和反馈翻译器等功能。
适用于强化学习的标准反馈编码格式:Uni-RLHF提出了一种标准化的反馈编码格式和对应的训练方法,支持五种反馈类型。
大规模众包标注流水线:通过并行的众包数据注释和过滤,促进大规模注释数据集的创建。
离线RLHF基准实验:利用收集到的众包反馈数据集对下游决策任务进行了大量实验,评估各种不同的设计选择及其对应的优势。

实验结果:
– 基于IQL基线效果最稳定,众包标签(CS)能够表现出和IQL-Oracle相当的优异性能。
– TFM结构在稳定性和性能两方面均领先于MLP结构,尤其是在稀疏奖励设置的环境中。
– 众包标签(CS)在大多数环境中能够达到相当甚至超越合成标签(ST)的效果。

未来展望:
评估人类的非理性和偏向性:如何在嘈杂的标签数据中进行学习是值得研究的方向。
不完美奖励函数修正:如何基于奖励塑形、先验知识等进一步的基于该奖励函数进行修正也是重要的研究问题。
– 多反馈类型的组合作用:在同一个任务中聚合图像、评估、关键帧等各类型反馈方式依然值得进一步研究。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...