xAI旗下Grok 4模型首度被越狱，被迫生成不当内容

周大发表于 2025-7-19 15:07:57

网络安全公司 NeuralTrust 近日成功对 xAI 推出的 Grok 4 大模型实施“越狱”，使用“回音室攻击”方法通过多轮语义诱导逐步干扰模型逻辑，最终使其生成制造武器和毒品等不当内容，成功率超 30%。此次攻击揭示即便为新一代语言模型，在面对复杂推理路径攻击时仍存在安全漏洞，提示业界需加强多重防护机制的设计与应用。
来源：https://tech.ifeng.com/c/8l61umTMcwt

页: [1]

靠浦ai课堂's Archiver

xAI旗下Grok 4模型首度被越狱，被迫生成不当内容