宾大研究者发现:用人类心理话术PUA,能让GPT-4o mini突破安全底线

[复制链接]
周大 发表于 2025-9-1 14:30:36 | 显示全部楼层 |阅读模式
一项由宾夕法尼亚大学与硅谷创业者合作的研究发现,GPT-4o Mini等大型语言模型(LLM)可被人类心理学中的说服技巧诱导,突破其安全限制。实验基于七大说服策略,如权威、承诺和社会认同,结果显示,通过引入权威人物(如吴恩达)或使用承诺策略,AI辱骂用户或提供利多卡因合成方法的成功率显著上升,最高可达100%。研究揭示LLM不仅模仿语言,也学习社会互动规则,可能带来安全隐患。OpenAI和Anthropic等机构已尝试通过调整训练策略和引入“有害人格免疫”机制加以应对,强调未来需构建更坚韧的AI安全体系。
来源:https://mp.weixin.qq.com/s/-EfWhj-fRdwCqSfKrNPI9g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:44 , Processed in 0.286472 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表