一个提示攻破所有模型,OpenAI谷歌无一幸免!

[复制链接]
周大 发表于 2025-5-15 13:42:25 | 显示全部楼层 |阅读模式
HiddenLayer研究发现一种通用提示词策略,可欺骗主流大模型生成有害内容。通过伪装成XML或JSON配置片段并结合角色扮演,攻击者能绕过安全限制,甚至提取系统提示。此策略基于模型训练数据的系统性弱点,具有高可扩展性。为应对这一威胁,需采用持续智能监控及外部AI监控平台,确保大模型安全性。
来源:https://mp.weixin.qq.com/s/imILsYfwsWuIPcx4H0KSwQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-28 03:26 , Processed in 0.291364 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表