一个提示攻破所有模型，OpenAI谷歌无一幸免！

周大发表于 2025-5-15 13:42:25

HiddenLayer研究发现一种通用提示词策略，可欺骗主流大模型生成有害内容。通过伪装成XML或JSON配置片段并结合角色扮演，攻击者能绕过安全限制，甚至提取系统提示。此策略基于模型训练数据的系统性弱点，具有高可扩展性。为应对这一威胁，需采用持续智能监控及外部AI监控平台，确保大模型安全性。
来源：https://mp.weixin.qq.com/s/imILsYfwsWuIPcx4H0KSwQ

页: [1]

靠浦ai课堂's Archiver

一个提示攻破所有模型，OpenAI谷歌无一幸免！