攻破AI最强守卫,赏金2万刀!Anthropic新方法可阻止95% Claude「越狱」行为
Anthropic推出新的AI防护系统——“宪法分类器”,在为期2个月、超3000小时的人类红队测试中,该系统成功阻止了95%以上的越狱尝试,将Claude的安全性从14%提升到95%,且推理开销仅增加23.7%。尽管赏金提高至最高2万美元,仍无人找到通用越狱方法,系统在实际应用中的流量拒绝率仅增加0.38%,展现出高效性和低影响的特点。来源:https://mp.weixin.qq.com/s/656d58ckacjAAhnyhtyKfg
页:
[1]