攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

周大发表于 2025-3-8 15:05:39

杜克大学计算进化智能中心研究发现，当前大型推理模型（LRMs）存在安全隐患。通过提出的H-CoT（思维链劫持）攻击方法，研究人员成功突破OpenAI o系列、DeepSeek-R1和Gemini 2.0 Flash Thinking等模型的安全防线，使模型拒绝率从98%降至2%以下。这表明“展示安全推理思维链”的透明化机制可能为攻击者提供切入点。该研究警示，在追求推理性能的同时，需重视安全审查机制的鲁棒性，并建议适当隐藏或模糊化处理安全推理思维链，以提高模型安全性。
来源：https://mp.weixin.qq.com/s/voEcGOeUOqvNizg2hGPsNg

页: [1]

靠浦ai课堂's Archiver

攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」