攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」

[复制链接]
周大 发表于 2025-3-8 15:05:39 | 显示全部楼层 |阅读模式
杜克大学计算进化智能中心研究发现,当前大型推理模型(LRMs)存在安全隐患。通过提出的H-CoT(思维链劫持)攻击方法,研究人员成功突破OpenAI o系列、DeepSeek-R1和Gemini 2.0 Flash Thinking等模型的安全防线,使模型拒绝率从98%降至2%以下。这表明“展示安全推理思维链”的透明化机制可能为攻击者提供切入点。该研究警示,在追求推理性能的同时,需重视安全审查机制的鲁棒性,并建议适当隐藏或模糊化处理安全推理思维链,以提高模型安全性。
来源:https://mp.weixin.qq.com/s/voEcGOeUOqvNizg2hGPsNg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-12 19:16 , Processed in 0.282144 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表