揭秘大语言模型中“提示词”隐藏的攻击手法

[复制链接]
周大 发表于 2023-11-17 11:00:57 | 显示全部楼层 |阅读模式
提示攻击是一种利用大语言模型(LLM)的安全漏洞进行攻击的方式,主要通过精心设计的提示来引导LLM输出非预期结果。主要包括提示注入、提示泄露和越狱三种类型。

提示注入的常见方式包括混淆绕过、有效载荷拆分、定义字典攻击、设定虚拟场景、间接注入、递归注入和代码注入等。

常见的防御措施包括增加过滤警戒,后置提示、随机序列封装用户输入、三明治防御、XML标签封装、指令防御、利用单独的LLM检测攻击性提示、使用更高级模型或微调模型等。

攻防双方都需要对LLM输出内容进行细致把控。攻方通过各种手段试图修改LLM行为,防方需要通过过滤、分类、封装等方法限制LLM可能被误导的空间,以保护系统安全。这是个长期的过程。

总体来说,提示攻击依赖于LLM本身的不完善之处,只有通过持续优化LLM本身和增强安全防护,才能有效减轻这类攻击风险。

原文链接:https://mp.weixin.qq.com/s/p8l5hqLEATYEINe_7UIvWQ

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 12:49 , Processed in 0.276772 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表