攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」
杜克大学计算进化智能中心研究发现,当前大型推理模型(LRMs)存在安全隐患。通过提出的H-CoT(思维链劫持)攻击方法,研究人员成功突破OpenAI o系列、DeepSeek-R1和Gemini 2.0 Flash Thinking等模型的安全防线,使模型拒绝率从98%降至2%以下。这表明“展示安全推理思维链”的透明化机制可能为攻击者提供切入点。该研究警示,在追求推理性能的同时,需重视安全审查机制的鲁棒性,并建议适当隐藏或模糊化处理安全推理思维链,以提高模型安全性。来源:https://mp.weixin.qq.com/s/voEcGOeUOqvNizg2hGPsNg
页:
[1]