ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

AI最新资讯4个月前发布 tree

77 0 0

今日应用

觅元素

觅元素专注于提供高质量版权素材图片免费下载的网站，提供优质png素材、高清背景素材、图片素材、设计素材，找高质量版权素材就来觅元素.

今日话题

ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

重点标签 RLHF、Uni-RLHF、多反馈标注、众包数据集、开源平台

文章摘要

Uni-RLHF平台的亮点：
– 多反馈类型通用标注平台：支持多种在线环境和离线数据集，具有查询采样器、交互式用户界面和反馈翻译器等功能。
– 适用于强化学习的标准反馈编码格式：Uni-RLHF提出了一种标准化的反馈编码格式和对应的训练方法，支持五种反馈类型。
– 大规模众包标注流水线：通过并行的众包数据注释和过滤，促进大规模注释数据集的创建。
– 离线RLHF基准实验：利用收集到的众包反馈数据集对下游决策任务进行了大量实验，评估各种不同的设计选择及其对应的优势。

实验结果：
– 基于IQL基线效果最稳定，众包标签(CS)能够表现出和IQL-Oracle相当的优异性能。
– TFM结构在稳定性和性能两方面均领先于MLP结构，尤其是在稀疏奖励设置的环境中。
– 众包标签(CS)在大多数环境中能够达到相当甚至超越合成标签(ST)的效果。

未来展望：
– 评估人类的非理性和偏向性：如何在嘈杂的标签数据中进行学习是值得研究的方向。
– 不完美奖励函数修正：如何基于奖励塑形、先验知识等进一步的基于该奖励函数进行修正也是重要的研究问题。
– 多反馈类型的组合作用：在同一个任务中聚合图像、评估、关键帧等各类型反馈方式依然值得进一步研究。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

今日应用

今日话题

文章摘要

文章来源

详解Latte：去年底上线的全球首个开源文生视频DiT

复旦大学提出D-Net：Transformer中融合动态大卷积核&动态特征融合模块，让分割效果骤升

相关文章

暂无评论

热门网址

热门标签