Anthropic 发现了一种 AI 越狱方法,安全护栏崩塌,文本视觉语音全部沦陷

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
Anthropic提出的Best-of-N Jailbreaking方法揭示了多模态AI模型的安全隐患。该方法通过重复采样和输入变形,在文本、视觉、音频模态下分别实现了89%、67%、72%的成功率,对顶级模型如GPT-4、Claude均有效。研究表明,攻击成功主要依赖于随机性和输入多样性,而非模型固有漏洞。复合式攻击结合Prefix PAIR,效率大幅提升。研究还提出了ASR预测公式,有助于快速评估模型风险。这一发现提醒我们,大模型安全机制仍需进一步完善。
来源:https://mp.weixin.qq.com/s/iZcc0E-4uM0kHAqUb34t_g

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 12:43 , Processed in 0.287382 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表