人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐

周大发表于 2024-11-16 13:53:05

人大和港科大的研究人员提出了一种名为安全概念激活向量（SCAV）的框架，揭示了大语言模型（LLM）的重要安全风险。SCAV通过在模型的嵌入空间中定义“安全”与“恶意”指令的分离面，指导攻击。基于SCAV的攻击方法能在嵌入层和提示层生成攻击，显著提升攻击成功率和响应质量。在对七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为99.14%。此外，SCAV生成的攻击提示具有跨模型迁移的潜力，可在GPT-4等黑盒API上取得成功。研究表明，现有防御方法如遗忘学习等无法完全阻止SCAV攻击，强调了开发更强安全防护的紧迫性。
来源：https://mp.weixin.qq.com/s/ifiXw4NGCr1tG_Tc5aCFyQ

页: [1]

靠浦ai课堂's Archiver

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐