Anthropic 发现了一种 AI 越狱方法，安全护栏崩塌，文本视觉语音全部沦陷

周大发表于 2024-12-20 15:18:22

Anthropic提出的Best-of-N Jailbreaking方法揭示了多模态AI模型的安全隐患。该方法通过重复采样和输入变形，在文本、视觉、音频模态下分别实现了89%、67%、72%的成功率，对顶级模型如GPT-4、Claude均有效。研究表明，攻击成功主要依赖于随机性和输入多样性，而非模型固有漏洞。复合式攻击结合Prefix PAIR，效率大幅提升。研究还提出了ASR预测公式，有助于快速评估模型风险。这一发现提醒我们，大模型安全机制仍需进一步完善。
来源：https://mp.weixin.qq.com/s/iZcc0E-4uM0kHAqUb34t_g

		自动登录	找回密码
密码			立即注册

课程导航

Anthropic 发现了一种 AI 越狱方法，安全护栏崩塌，文本视觉语音全部沦陷