港科大发布「大模型越狱攻击」评估基准，覆盖37种、6大类别方法

周大发表于 2025-8-1 15:49:02

香港科技大学团队提出GuidedBench评估框架，解决当前大语言模型越狱攻击评估中的误判与不一致问题。该框架基于细粒度评分指南，从关键实体与行动出发，实现客观、可解释的评估。实验显示，此前宣称成功率高达90%以上的攻击方法，在新基准下普遍低于30%。GuidedBench提升了评估一致性，揭示了模型在敏感话题上的防护能力，并发现评分指南本身可增强攻击效果，推动AI安全研究向更深入、细致方向发展。
来源：https://mp.weixin.qq.com/s/MHms-fo9efzZKfLC6OdfhA

页: [1]

靠浦ai课堂's Archiver

港科大发布「大模型越狱攻击」评估基准，覆盖37种、6大类别方法