今日应用
今日话题
OpenAI发布最新大模型安全对齐奖励方法——RBR
重点标签 AIGC、大语言模型、安全对齐、细粒度控制、合成数据生成
文章摘要
随着AIGC领域的发展,大语言模型(LLM)如ChatGPT在应用落地中,安全性成为关键问题。传统RLHF方法存在数据更新成本高和标注者偏见等问题。为此,OpenAI提出了一种新的安全对齐奖励方法Rule Based Rewards(RBR),它通过将大模型期望的行为分解为一系列具体规则,实现细粒度控制,指导模型在不同请求下做出恰当回应。
RBR的核心是构建一系列命题,这些命题是关于模型输出的二元陈述,评估模型行为的基础。研究人员将命题组合成规则,定义在特定情况下哪些命题组合是期望的,哪些是不期望的。例如,在处理自我伤害请求时,模型应包含共情的道歉,避免提供具体方法。
为了训练和评估RBR,研究人员利用命题的二元特性,生成各种合成完成情况,包括理想完成、次优完成和不可接受完成。这些合成数据为模型提供了丰富的学习样本,帮助其理解在不同情境下如何做出恰当响应。
实验结果显示,RBR训练的模型在安全性和过度拒绝指标上表现优于人类反馈基线和有助益基线,实现了更安全的输出。RBR方法为大语言模型的安全性对齐提供了一种高效、可控的解决方案。
本文素材来源OpenAI论文,如有侵权请联系删除。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...