DeepSeek“防弹衣”来了，模型内生安全加固方案

周大发表于 2025-3-13 14:37:33

针对DeepSeek-R1等大模型存在的安全隐患，上海交大与上海AI Lab联合提出X-Boundary防御框架。该方案通过分离安全与有害表征，定向消除威胁，避免模型“过度安全”或失效。实验表明，X-Boundary在Llama-3-8B和Qwen2.5-7B等模型上显著提升安全性，同时保持99%以上原生性能，有效平衡安全与智能。其多轮防御能力尤其突出，在140亿参数规模的Qwen2.5-14B-Chat上实现低误伤率和零感知防御。
来源：https://mp.weixin.qq.com/s/geeJ_CoAi5uZT8UkY3XSAw

页: [1]

靠浦ai课堂's Archiver

DeepSeek“防弹衣”来了，模型内生安全加固方案