好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出

AI最新资讯3个月前发布 tree
29 0 0

今日应用


今日话题


好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出
好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出
 

重点标签 机器学习红队测试聊天机器人好奇心人工智能

文章摘要


研究人员使用强化学习来训练红队模型,利用好奇心驱动探索的技术。

红队模型被激励于对其生成的每个提示的后果保持好奇心,因此会尝试具有不同单词、句子模式或含义的提示。

为了防止红队模型生成随机的、无意义的文本,研究人员还向训练目标添加了自然语言奖励。

他们的模型在毒性和多样性方面表现优于其他自动化技术,并且能够迅速生成提示,从而引发经过人类反馈微调的聊天机器人的有毒回复。

研究人员希望在未来使红队模型能够生成更广泛主题的提示,并探索使用大型语言模型作为毒性分类器的可能性。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...