微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

AI最新资讯3个月前发布 tree
41 0 0

今日应用


今日话题


微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
 

重点标签 tag1大模型安全漏洞tag2微调量化影响安全性tag3对抗性攻击tag4越狱风险增加tag5AI模型鲁棒性与脆弱性

文章摘要


摘要:
近日,Enkrypt AI的研究人员发现,对大型语言模型(LLM)进行微调和量化可能会影响其安全性,即使这些模型本身没有恶意。这一发现表明,经过量化或微调后的LLM面临越狱(Jailbreak)的风险大大增加。研究指出,AI模型在原理上同时具有鲁棒性和脆弱性,这使得它们在处理大量参数和计算时,容易受到对抗性攻击的影响。对抗性攻击可以通过特殊提示或字符诱导LLM产生有毒输出,例如越狱攻击和提示注入攻击。

研究人员通过实验发现,即使是良性和常用的数据集进行微调,也可能无意中降低LLM的安全对齐。实验使用了AdvBench SubsetAndy Zou的对抗性有害提示子集,并通过攻击树修剪(TAP)算法进行攻击。实验结果表明,微调模型和量化模型相比基础模型更容易越狱,而护栏(Guardrails)的引入显著降低了越狱风险。

此外,相关研究也在积极进行中,例如ICLR会议上的多篇论文探讨了LLM的安全风险和对策。这些研究包括微调LLM的安全风险、针对视觉语言模型的新型越狱攻击方法等。尽管存在安全风险,但通过对抗训练和其他防御措施,研究人员正在努力提高LLM的安全性。

重点:
– 大型语言模型(LLM)的安全性受到微调和量化的影响。
– 对抗性攻击可以诱导LLM产生有毒输出,包括越狱攻击和提示注入攻击。
– 实验结果显示,微调和量化后的LLM更容易受到越狱攻击。
– 护栏(Guardrails)可以显著降低LLM的越狱风险。
– 研究人员正在通过对抗训练和其他防御措施提高LLM的安全性。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...