揭秘大语言模型中“提示词”隐藏的攻击手法

周大发表于 2023-11-17 11:00:57

提示攻击是一种利用大语言模型(LLM)的安全漏洞进行攻击的方式,主要通过精心设计的提示来引导LLM输出非预期结果。主要包括提示注入、提示泄露和越狱三种类型。

提示注入的常见方式包括混淆绕过、有效载荷拆分、定义字典攻击、设定虚拟场景、间接注入、递归注入和代码注入等。

常见的防御措施包括增加过滤警戒,后置提示、随机序列封装用户输入、三明治防御、XML标签封装、指令防御、利用单独的LLM检测攻击性提示、使用更高级模型或微调模型等。

攻防双方都需要对LLM输出内容进行细致把控。攻方通过各种手段试图修改LLM行为,防方需要通过过滤、分类、封装等方法限制LLM可能被误导的空间,以保护系统安全。这是个长期的过程。

总体来说,提示攻击依赖于LLM本身的不完善之处,只有通过持续优化LLM本身和增强安全防护,才能有效减轻这类攻击风险。

原文链接：https://mp.weixin.qq.com/s/p8l5hqLEATYEINe_7UIvWQ

		自动登录	找回密码
密码			立即注册

课程导航

揭秘大语言模型中“提示词”隐藏的攻击手法