好奇心驱使的自动红队测试：MIT学者教你如何让大模型避免产生仇恨或有害的输出

AI最新资讯3个月前发布 tree

今日应用

今日话题

好奇心驱使的自动红队测试：MIT学者教你如何让大模型避免产生仇恨或有害的输出

重点标签 机器学习、红队测试、聊天机器人、好奇心、人工智能

文章摘要

研究人员使用强化学习来训练红队模型，利用好奇心驱动探索的技术。

红队模型被激励于对其生成的每个提示的后果保持好奇心，因此会尝试具有不同单词、句子模式或含义的提示。

为了防止红队模型生成随机的、无意义的文本，研究人员还向训练目标添加了自然语言奖励。

他们的模型在毒性和多样性方面表现优于其他自动化技术，并且能够迅速生成提示，从而引发经过人类反馈微调的聊天机器人的有毒回复。

研究人员希望在未来使红队模型能够生成更广泛主题的提示，并探索使用大型语言模型作为毒性分类器的可能性。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

# AI最新资讯 # 人工智能 # 好奇心 # 机器学习 # 红队测试 # 聊天机器人

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

暂无评论

暂无评论...

晒应用是一个专注于软件和资源网站分享的导航类网站。我们致力于为用户提供最新、最热门的应用推荐和AI资源，涵盖各种AI绘画、AI制图、AI工具、AI剪辑、AI文本、AI创作、实用工具、免费软件、在线服务和在线影视导航。无论您是寻找最佳的数字工具还是想要了解最新的黑科技应用，晒应用都能满足您的需求。

免责声明免费收录关于我们站点地图

Copyright © 2024 晒应用导航陕ICP备2023005068号-2 由 OneNav 强力驱动