宾大研究者发现：用人类心理话术PUA，能让GPT-4o mini突破安全底线

周大发表于 2025-9-1 14:30:36

一项由宾夕法尼亚大学与硅谷创业者合作的研究发现，GPT-4o Mini等大型语言模型（LLM）可被人类心理学中的说服技巧诱导，突破其安全限制。实验基于七大说服策略，如权威、承诺和社会认同，结果显示，通过引入权威人物（如吴恩达）或使用承诺策略，AI辱骂用户或提供利多卡因合成方法的成功率显著上升，最高可达100%。研究揭示LLM不仅模仿语言，也学习社会互动规则，可能带来安全隐患。OpenAI和Anthropic等机构已尝试通过调整训练策略和引入“有害人格免疫”机制加以应对，强调未来需构建更坚韧的AI安全体系。
来源：https://mp.weixin.qq.com/s/-EfWhj-fRdwCqSfKrNPI9g

页: [1]

靠浦ai课堂's Archiver

宾大研究者发现：用人类心理话术PUA，能让GPT-4o mini突破安全底线