周大 发表于 2025-2-11 15:12:34

网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

针对近期DeepSeek R1模型暴露出的安全漏洞问题,香港科技大学、南洋理工大学等机构联合提出SelfDefend框架。该框架通过引入“影子LLM”,在不增加显著延迟的情况下,有效识别和抵御各类越狱攻击。实验结果显示,基于GPT-3.5和GPT-4的SelfDefend将攻击成功率分别从65.7%和更低降至0.236和0.050,同时对正常查询影响微乎其微。与现有七种主流防御方法对比,SelfDefend在60个测试场景中的55个场景表现最优,实现了AI系统安全性与效率的平衡,为AI安全领域带来了重要突破。
来源:https://mp.weixin.qq.com/s/yEJiLiIiE-xeczl6MuEpVA
页: [1]
查看完整版本: 网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend