今日应用
今日话题
长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
重点标签 Many-shot Jailbreaking、人工智能、安全漏洞、上下文学习、缓解措施
文章摘要
Many-shot 越狱技术基于 LLM 上下文窗口漏洞,攻击者通过在单个提示中包含多个虚假对话,引导模型产生不良行为。研究发现,随着对话次数(shots)的增加,模型产生有害响应的几率也在增加。该漏洞与「上下文学习」过程有关,即 LLM 仅使用提示中信息进行学习,无需后续微调。研究还发现,对于较大的模型,many-shot 越狱更有效。
为缓解这一漏洞,Anthropic 采用了在将提示传递给模型之前对其进行分类和修改的方法。其中,Cautionary Warning Defense(CWD)方法显著降低了攻击成功率,从 61% 降至 2%。Anthropic 正在继续研究基于提示的缓解措施,并保持对可能逃避检测的攻击变体的警惕。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...