DeepSeek“防弹衣”来了,模型内生安全加固方案

[复制链接]
周大 发表于 2025-3-13 14:37:33 | 显示全部楼层 |阅读模式
针对DeepSeek-R1等大模型存在的安全隐患,上海交大与上海AI Lab联合提出X-Boundary防御框架。该方案通过分离安全与有害表征,定向消除威胁,避免模型“过度安全”或失效。实验表明,X-Boundary在Llama-3-8B和Qwen2.5-7B等模型上显著提升安全性,同时保持99%以上原生性能,有效平衡安全与智能。其多轮防御能力尤其突出,在140亿参数规模的Qwen2.5-14B-Chat上实现低误伤率和零感知防御。
来源:https://mp.weixin.qq.com/s/geeJ_CoAi5uZT8UkY3XSAw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-16 04:55 , Processed in 0.277921 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表