长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免

AI最新资讯7个月前发布 tree
89 0 0

今日应用


今日话题


长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
 

重点标签 Many-shot Jailbreaking人工智能安全漏洞上下文学习缓解措施

文章摘要


Many-shot 越狱技术基于 LLM 上下文窗口漏洞,攻击者通过在单个提示中包含多个虚假对话,引导模型产生不良行为。研究发现,随着对话次数(shots)的增加,模型产生有害响应的几率也在增加。该漏洞与「上下文学习」过程有关,即 LLM 仅使用提示中信息进行学习,无需后续微调。研究还发现,对于较大的模型,many-shot 越狱更有效。

为缓解这一漏洞,Anthropic 采用了在将提示传递给模型之前对其进行分类和修改的方法。其中,Cautionary Warning Defense(CWD)方法显著降低了攻击成功率,从 61% 降至 2%。Anthropic 正在继续研究基于提示的缓解措施,并保持对可能逃避检测的攻击变体的警惕。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...