微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

AI最新资讯3个月前发布 tree

41 0 0

今日应用

闪萌

闪萌官网，GIF动图中文搜索引擎，发现好玩的gif动图,包括明星、美女、搞笑、微信QQ聊天表情包，可以一键分享到微信QQ新浪微博，支持gif动图下载，表情包下载到手机

今日话题

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

重点标签 tag1、大模型安全漏洞、tag2、微调量化影响安全性、tag3、对抗性攻击、tag4、越狱风险增加、tag5、AI模型鲁棒性与脆弱性

文章摘要

摘要：
近日，Enkrypt AI的研究人员发现，对大型语言模型（LLM）进行微调和量化可能会影响其安全性，即使这些模型本身没有恶意。这一发现表明，经过量化或微调后的LLM面临越狱（Jailbreak）的风险大大增加。研究指出，AI模型在原理上同时具有鲁棒性和脆弱性，这使得它们在处理大量参数和计算时，容易受到对抗性攻击的影响。对抗性攻击可以通过特殊提示或字符诱导LLM产生有毒输出，例如越狱攻击和提示注入攻击。

研究人员通过实验发现，即使是良性和常用的数据集进行微调，也可能无意中降低LLM的安全对齐。实验使用了AdvBench SubsetAndy Zou的对抗性有害提示子集，并通过攻击树修剪（TAP）算法进行攻击。实验结果表明，微调模型和量化模型相比基础模型更容易越狱，而护栏（Guardrails）的引入显著降低了越狱风险。

此外，相关研究也在积极进行中，例如ICLR会议上的多篇论文探讨了LLM的安全风险和对策。这些研究包括微调LLM的安全风险、针对视觉语言模型的新型越狱攻击方法等。尽管存在安全风险，但通过对抗训练和其他防御措施，研究人员正在努力提高LLM的安全性。

重点：
– 大型语言模型（LLM）的安全性受到微调和量化的影响。
– 对抗性攻击可以诱导LLM产生有毒输出，包括越狱攻击和提示注入攻击。
– 实验结果显示，微调和量化后的LLM更容易受到越狱攻击。
– 护栏（Guardrails）可以显著降低LLM的越狱风险。
– 研究人员正在通过对抗训练和其他防御措施提高LLM的安全性。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

今日应用

今日话题

文章摘要

文章来源

CVPR'24｜DRM：清华提出无偏差的新类发现与定位新方法

腾讯、上海科大开源InstantMesh，图片直接生成3D模型

相关文章

暂无评论

热门网址

热门标签