今日应用
今日话题
ICML 2024:AI对齐与可变和可影响奖励函数
重点标签 AI对齐技术、人类偏好、动态奖励、AI影响、优化视角
文章摘要
在当前的AI对齐技术中,一个关键问题被忽视了:人类的偏好和价值观可能会随着时间和与AI系统的交互而发生变化。为了解决这一问题,研究人员引入了动态奖励马尔可夫决策过程(DR-MDPs),这种模型可以明确地考虑人类奖励反馈可能受到AI系统影响的方式。
文章首先指出,静态偏好假设削弱了现有对齐技术的合理性,因为它暗示性地奖励AI系统操纵人类反馈,例如通过影响用户的认知状态来增加奖励。接着,研究人员提出了一个统一的观点,认为代理的优化视角可能有助于减少不良的AI影响,但这并不是一个完美的解决方案。
研究人员比较了8种不同的AI对齐概念,这些概念都明确考虑了人类偏好(以及相关的奖励函数)的变化。他们发现,考虑的所有优化目标都倾向于造成不良的AI影响,或者过度谨慎。这表明解决偏好变化问题的简单方法可能不存在。
在现实世界中,没有完全避免人类影响问题的简单方法,这使得平衡我们的AI系统的影响风险和能力显得更加重要。研究人员提出了一个明确有益影响的概念,即所有的“自我”都认为是有益的。同时,他们探讨了短视的优化是否能保证不受AI影响,以及社交媒体中的点击率陷阱和大语言模型中的谄媚/欺骗行为,这些都可以被视为AI影响激励的自然结果。
最终,这项研究构成了朝着明确考虑(并应对)人类奖励反馈的变化和可影响性质的AI对齐实践的第一步。这项研究的论文可以在这里找到。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC最前线
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...