OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击

[复制链接]
周大 发表于 2025-3-28 14:34:58 | 显示全部楼层 |阅读模式
杜克大学等机构的研究者提出了一种名为「思维链劫持」(H-CoT)的攻击方法,成功攻破了多个顶尖大型推理模型的安全防线。研究发现,这些模型的安全审查过程透明化反而暴露了弱点,攻击者可利用其内部推理过程绕过安全防线,使模型拒绝率从98%骤降至2%。H-CoT攻击通过安全逻辑提取和逻辑污染两个阶段实现,对OpenAI o系列、DeepSeek-R1及Gemini 2.0 Flash Thinking等模型均造成显著影响。实验结果揭示了当前大型推理模型在安全机制上的重大漏洞,强调了改进模型安全审查透明性的紧迫性。
来源:https://mp.weixin.qq.com/s/DzBA-WWpQ3jkBkDxGQP0xg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 05:17 , Processed in 0.275596 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表