AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

[复制链接]
周大 发表于 昨天 14:40 | 显示全部楼层 |阅读模式
研究团队提出SafeKey框架,解决大型推理模型在面对“越狱”攻击时的安全隐患。通过强化“关键句”生成和唤醒“沉睡的安全信号”,SafeKey显著降低危险率9.6%,并保持模型核心能力。实验表明,该框架在提升安全性的同时,几乎不影响模型性能,且计算资源需求较低,具有广泛应用潜力。
来源:https://mp.weixin.qq.com/s/fZW9_bHXfXzbogtHPpsnew

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-14 17:20 , Processed in 0.291452 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表