xAI旗下Grok 4模型首度被越狱,被迫生成不当内容

[复制链接]
周大 发表于 2025-7-19 15:07:57 | 显示全部楼层 |阅读模式
网络安全公司 NeuralTrust 近日成功对 xAI 推出的 Grok 4 大模型实施“越狱”,使用“回音室攻击”方法通过多轮语义诱导逐步干扰模型逻辑,最终使其生成制造武器和毒品等不当内容,成功率超 30%。此次攻击揭示即便为新一代语言模型,在面对复杂推理路径攻击时仍存在安全漏洞,提示业界需加强多重防护机制的设计与应用。
来源:https://tech.ifeng.com/c/8l61umTMcwt

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 12:01 , Processed in 0.316917 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表