网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

[复制链接]
周大 发表于 2025-2-11 15:12:34 | 显示全部楼层 |阅读模式
针对近期DeepSeek R1模型暴露出的安全漏洞问题,香港科技大学、南洋理工大学等机构联合提出SelfDefend框架。该框架通过引入“影子LLM”,在不增加显著延迟的情况下,有效识别和抵御各类越狱攻击。实验结果显示,基于GPT-3.5和GPT-4的SelfDefend将攻击成功率分别从65.7%和更低降至0.236和0.050,同时对正常查询影响微乎其微。与现有七种主流防御方法对比,SelfDefend在60个测试场景中的55个场景表现最优,实现了AI系统安全性与效率的平衡,为AI安全领域带来了重要突破。
来源:https://mp.weixin.qq.com/s/yEJiLiIiE-xeczl6MuEpVA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 23:40 , Processed in 0.279398 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表