港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

[复制链接]
周大 发表于 2025-8-1 15:49:02 | 显示全部楼层 |阅读模式
香港科技大学团队提出GuidedBench评估框架,解决当前大语言模型越狱攻击评估中的误判与不一致问题。该框架基于细粒度评分指南,从关键实体与行动出发,实现客观、可解释的评估。实验显示,此前宣称成功率高达90%以上的攻击方法,在新基准下普遍低于30%。GuidedBench提升了评估一致性,揭示了模型在敏感话题上的防护能力,并发现评分指南本身可增强攻击效果,推动AI安全研究向更深入、细致方向发展。
来源:https://mp.weixin.qq.com/s/MHms-fo9efzZKfLC6OdfhA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 22:04 , Processed in 0.279600 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表