攻破AI最强守卫,赏金2万刀!Anthropic新方法可阻止95% Claude「越狱」行为

[复制链接]
周大 发表于 2025-2-17 15:13:26 | 显示全部楼层 |阅读模式
Anthropic推出新的AI防护系统——“宪法分类器”,在为期2个月、超3000小时的人类红队测试中,该系统成功阻止了95%以上的越狱尝试,将Claude的安全性从14%提升到95%,且推理开销仅增加23.7%。尽管赏金提高至最高2万美元,仍无人找到通用越狱方法,系统在实际应用中的流量拒绝率仅增加0.38%,展现出高效性和低影响的特点。
来源:https://mp.weixin.qq.com/s/656d58ckacjAAhnyhtyKfg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 16:15 , Processed in 0.278612 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表