人大&港科大揭示大模型重要安全风险漏洞:利用概念激活向量破解大模型的安全对齐
人大和港科大的研究人员提出了一种名为安全概念激活向量(SCAV)的框架,揭示了大语言模型(LLM)的重要安全风险。SCAV通过在模型的嵌入空间中定义“安全”与“恶意”指令的分离面,指导攻击。基于SCAV的攻击方法能在嵌入层和提示层生成攻击,显著提升攻击成功率和响应质量。在对七个开源大模型的评估中,基于关键词匹配标准的平均攻击成功率(ASR)为99.14%。此外,SCAV生成的攻击提示具有跨模型迁移的潜力,可在GPT-4等黑盒API上取得成功。研究表明,现有防御方法如遗忘学习等无法完全阻止SCAV攻击,强调了开发更强安全防护的紧迫性。来源:https://mp.weixin.qq.com/s/ifiXw4NGCr1tG_Tc5aCFyQ
页:
[1]