周大 发表于 2025-8-1 15:49:02

港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

香港科技大学团队提出GuidedBench评估框架,解决当前大语言模型越狱攻击评估中的误判与不一致问题。该框架基于细粒度评分指南,从关键实体与行动出发,实现客观、可解释的评估。实验显示,此前宣称成功率高达90%以上的攻击方法,在新基准下普遍低于30%。GuidedBench提升了评估一致性,揭示了模型在敏感话题上的防护能力,并发现评分指南本身可增强攻击效果,推动AI安全研究向更深入、细致方向发展。
来源:https://mp.weixin.qq.com/s/MHms-fo9efzZKfLC6OdfhA
页: [1]
查看完整版本: 港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法