周大 发表于 2024-12-20 15:18:22

Anthropic 发现了一种 AI 越狱方法,安全护栏崩塌,文本视觉语音全部沦陷

Anthropic提出的Best-of-N Jailbreaking方法揭示了多模态AI模型的安全隐患。该方法通过重复采样和输入变形,在文本、视觉、音频模态下分别实现了89%、67%、72%的成功率,对顶级模型如GPT-4、Claude均有效。研究表明,攻击成功主要依赖于随机性和输入多样性,而非模型固有漏洞。复合式攻击结合Prefix PAIR,效率大幅提升。研究还提出了ASR预测公式,有助于快速评估模型风险。这一发现提醒我们,大模型安全机制仍需进一步完善。
来源:https://mp.weixin.qq.com/s/iZcc0E-4uM0kHAqUb34t_g
页: [1]
查看完整版本: Anthropic 发现了一种 AI 越狱方法,安全护栏崩塌,文本视觉语音全部沦陷