周大 发表于 2025-5-15 13:42:25

一个提示攻破所有模型,OpenAI谷歌无一幸免!

HiddenLayer研究发现一种通用提示词策略,可欺骗主流大模型生成有害内容。通过伪装成XML或JSON配置片段并结合角色扮演,攻击者能绕过安全限制,甚至提取系统提示。此策略基于模型训练数据的系统性弱点,具有高可扩展性。为应对这一威胁,需采用持续智能监控及外部AI监控平台,确保大模型安全性。
来源:https://mp.weixin.qq.com/s/imILsYfwsWuIPcx4H0KSwQ
页: [1]
查看完整版本: 一个提示攻破所有模型,OpenAI谷歌无一幸免!