AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

周大发表于 2025-6-13 14:40:53

研究团队提出SafeKey框架，解决大型推理模型在面对“越狱”攻击时的安全隐患。通过强化“关键句”生成和唤醒“沉睡的安全信号”，SafeKey显著降低危险率9.6%，并保持模型核心能力。实验表明，该框架在提升安全性的同时，几乎不影响模型性能，且计算资源需求较低，具有广泛应用潜力。
来源：https://mp.weixin.qq.com/s/fZW9_bHXfXzbogtHPpsnew

页: [1]

靠浦ai课堂's Archiver

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%