周大 发表于 2024-8-15 15:10:26

香港理工:你精心设计的prompt,很容易被用户套出来!

香港理工大学的研究揭示了大型语言模型(LLMs)在定制化服务中易泄露prompt的问题。研究指出,即使经过安全设置,LLMs仍面临提示泄露风险,尤其大型模型更易受攻击。通过分析,发现prompt的熟悉程度和模型的注意力机制是泄露的关键因素。为此,研究人员提出了包括提高困惑度和阻断注意力链接在内的有效防御策略,这些策略不仅能显著减少泄露,还不影响LLMs的整体性能。
来源:https://mp.weixin.qq.com/s/RMwPScSP2y4KnSXkmoslhQ
页: [1]
查看完整版本: 香港理工:你精心设计的prompt,很容易被用户套出来!