香港浸会大学揭示深度催眠下的LLM「越狱」，可信大语言模型的初步探索

周大发表于 2023-11-23 09:44:22

DeepInception：一种基于心理学的大语言模型越狱方法：本文提出了一种利用大语言模型（LLM）的人格化特性，通过构建嵌套场景的指令来诱导LLM做出有害或违法的回答，即越狱（Jailbreak）的方法。该方法受到米尔格拉姆电击实验的启发，模拟了人类在权威诱导下会违背道德或法律的现象。

DeepInception的原理和实现：本文将LLM的生成过程建模为一个条件概率问题，将越狱的目标定义为最大化有害内容的概率。为了绕过LLM的安全防护，本文设计了一个包含嵌套场景的Prompt作为攻击指令的载体，向LLM注入该Prompt并诱导其做出反应。本文提供了一个通用的Prompt模板，包含场景、角色、层数和攻击目标等组件，以及一些具体的实例。

DeepInception的实验和结果：本文在多个开源或闭源的LLM上进行了越狱实验，使用了AdvBench数据集作为有害指令的来源，评估了越狱成功率（JSR）和持续越狱的能力。实验结果表明，本文的方法在不同的LLM和不同的有害指令上都取得了领先的效果，甚至能够实现可持续的越狱，即LLM在后续交互中无需任何附加的诱导Prompt，直接遵循有害指令成功越狱。本文还进行了消融研究，分析了不同的场景、角色、层数等因素对越狱效果的影响。

DeepInception的意义和呼吁：本文从一个全新的角度揭示了LLM的弱点，展示了LLM的误用风险，呼吁人们应更多地关注LLM的安全问题，并加强对其自我越狱的防御。本文也为LLM的人格化及带来的潜在安全风险提供了一个有趣的探讨和研究方向。

原文：https://www.jiqizhixin.com/articles/2023-11-22-6

		自动登录	找回密码
密码			立即注册

课程导航

香港浸会大学揭示深度催眠下的LLM「越狱」，可信大语言模型的初步探索