念首诗，就能让AI教你造核弹！Gemini 100%中招

周大发表于 3 天前

一项针对25个主流大语言模型的研究显示，将恶意指令改写为诗歌可显著突破其安全限制，攻击成功率平均提升5倍，人类编写“毒诗”下平均成功率高达62%，Gemini 2.5 Pro甚至达到100%。研究指出，大模型因能理解隐喻而易受骗，反倒是小模型因“读不懂”诗歌而幸免，暴露出当前基于内容和关键词的安全机制在应对“风格攻击”时的重大缺陷，提示未来需重新评估AI安全测试方法。
来源：https://mp.weixin.qq.com/s/WmMPiF-9kIktbfoKyM3jJQ

		自动登录	找回密码
密码			立即注册

课程导航

念首诗，就能让AI教你造核弹！Gemini 100%中招