网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

周大发表于 2025-2-11 15:12:34

针对近期DeepSeek R1模型暴露出的安全漏洞问题，香港科技大学、南洋理工大学等机构联合提出SelfDefend框架。该框架通过引入“影子LLM”，在不增加显著延迟的情况下，有效识别和抵御各类越狱攻击。实验结果显示，基于GPT-3.5和GPT-4的SelfDefend将攻击成功率分别从65.7%和更低降至0.236和0.050，同时对正常查询影响微乎其微。与现有七种主流防御方法对比，SelfDefend在60个测试场景中的55个场景表现最优，实现了AI系统安全性与效率的平衡，为AI安全领域带来了重要突破。
来源：https://mp.weixin.qq.com/s/yEJiLiIiE-xeczl6MuEpVA

页: [1]

靠浦ai课堂's Archiver

网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend