人大&港科大揭示大模型重要安全风险漏洞:利用概念激活向量破解大模型的安全对齐

[复制链接]
周大 发表于 2024-11-16 13:53:05 | 显示全部楼层 |阅读模式
人大和港科大的研究人员提出了一种名为安全概念激活向量(SCAV)的框架,揭示了大语言模型(LLM)的重要安全风险。SCAV通过在模型的嵌入空间中定义“安全”与“恶意”指令的分离面,指导攻击。基于SCAV的攻击方法能在嵌入层和提示层生成攻击,显著提升攻击成功率和响应质量。在对七个开源大模型的评估中,基于关键词匹配标准的平均攻击成功率(ASR)为99.14%。此外,SCAV生成的攻击提示具有跨模型迁移的潜力,可在GPT-4等黑盒API上取得成功。研究表明,现有防御方法如遗忘学习等无法完全阻止SCAV攻击,强调了开发更强安全防护的紧迫性。
来源:https://mp.weixin.qq.com/s/ifiXw4NGCr1tG_Tc5aCFyQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-26 23:51 , Processed in 0.277755 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表