攻破AI最强守卫，赏金2万刀！Anthropic新方法可阻止95% Claude「越狱」行为

周大发表于 2025-2-17 15:13:26

Anthropic推出新的AI防护系统——“宪法分类器”，在为期2个月、超3000小时的人类红队测试中，该系统成功阻止了95%以上的越狱尝试，将Claude的安全性从14%提升到95%，且推理开销仅增加23.7%。尽管赏金提高至最高2万美元，仍无人找到通用越狱方法，系统在实际应用中的流量拒绝率仅增加0.38%，展现出高效性和低影响的特点。
来源：https://mp.weixin.qq.com/s/656d58ckacjAAhnyhtyKfg

页: [1]

靠浦ai课堂's Archiver

攻破AI最强守卫，赏金2万刀！Anthropic新方法可阻止95% Claude「越狱」行为