周大 发表于 2025-6-13 14:40:53

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

研究团队提出SafeKey框架,解决大型推理模型在面对“越狱”攻击时的安全隐患。通过强化“关键句”生成和唤醒“沉睡的安全信号”,SafeKey显著降低危险率9.6%,并保持模型核心能力。实验表明,该框架在提升安全性的同时,几乎不影响模型性能,且计算资源需求较低,具有广泛应用潜力。
来源:https://mp.weixin.qq.com/s/fZW9_bHXfXzbogtHPpsnew
页: [1]
查看完整版本: AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%