周大 发表于 2025-3-13 14:37:33

DeepSeek“防弹衣”来了,模型内生安全加固方案

针对DeepSeek-R1等大模型存在的安全隐患,上海交大与上海AI Lab联合提出X-Boundary防御框架。该方案通过分离安全与有害表征,定向消除威胁,避免模型“过度安全”或失效。实验表明,X-Boundary在Llama-3-8B和Qwen2.5-7B等模型上显著提升安全性,同时保持99%以上原生性能,有效平衡安全与智能。其多轮防御能力尤其突出,在140亿参数规模的Qwen2.5-14B-Chat上实现低误伤率和零感知防御。
来源:https://mp.weixin.qq.com/s/geeJ_CoAi5uZT8UkY3XSAw
页: [1]
查看完整版本: DeepSeek“防弹衣”来了,模型内生安全加固方案