Anthropic 发现了一种 AI 越狱方法,安全护栏崩塌,文本视觉语音全部沦陷
Anthropic提出的Best-of-N Jailbreaking方法揭示了多模态AI模型的安全隐患。该方法通过重复采样和输入变形,在文本、视觉、音频模态下分别实现了89%、67%、72%的成功率,对顶级模型如GPT-4、Claude均有效。研究表明,攻击成功主要依赖于随机性和输入多样性,而非模型固有漏洞。复合式攻击结合Prefix PAIR,效率大幅提升。研究还提出了ASR预测公式,有助于快速评估模型风险。这一发现提醒我们,大模型安全机制仍需进一步完善。来源:https://mp.weixin.qq.com/s/iZcc0E-4uM0kHAqUb34t_g
页:
[1]