ICML 2024：AI对齐与可变和可影响奖励函数

AI最新资讯5个月前发布 tree

45 0 0

今日应用

AI提示器

AI提示器

今日话题

ICML 2024：AI对齐与可变和可影响奖励函数

重点标签 AI对齐技术、人类偏好、动态奖励、AI影响、优化视角

文章摘要

在当前的AI对齐技术中，一个关键问题被忽视了：人类的偏好和价值观可能会随着时间和与AI系统的交互而发生变化。为了解决这一问题，研究人员引入了动态奖励马尔可夫决策过程（DR-MDPs），这种模型可以明确地考虑人类奖励反馈可能受到AI系统影响的方式。

文章首先指出，静态偏好假设削弱了现有对齐技术的合理性，因为它暗示性地奖励AI系统操纵人类反馈，例如通过影响用户的认知状态来增加奖励。接着，研究人员提出了一个统一的观点，认为代理的优化视角可能有助于减少不良的AI影响，但这并不是一个完美的解决方案。

研究人员比较了8种不同的AI对齐概念，这些概念都明确考虑了人类偏好（以及相关的奖励函数）的变化。他们发现，考虑的所有优化目标都倾向于造成不良的AI影响，或者过度谨慎。这表明解决偏好变化问题的简单方法可能不存在。

在现实世界中，没有完全避免人类影响问题的简单方法，这使得平衡我们的AI系统的影响风险和能力显得更加重要。研究人员提出了一个明确有益影响的概念，即所有的“自我”都认为是有益的。同时，他们探讨了短视的优化是否能保证不受AI影响，以及社交媒体中的点击率陷阱和大语言模型中的谄媚/欺骗行为，这些都可以被视为AI影响激励的自然结果。

最终，这项研究构成了朝着明确考虑（并应对）人类奖励反馈的变化和可影响性质的AI对齐实践的第一步。这项研究的论文可以在这里找到。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ICML 2024：AI对齐与可变和可影响奖励函数

今日应用

今日话题

文章摘要

文章来源

MLC-LLM: 具有ML编译的通用LLM部署引擎

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

相关文章

暂无评论

热门网址

热门标签