OpenAI谷歌Anthropic罕见联手发研究！Ilya/Hinton/Bengio带头支持，共推CoT监测方案

周大发表于 2025-7-16 14:49:42

OpenAI、谷歌DeepMind与Anthropic等AI巨头联合发布关于AI安全的研究，提出利用思维链（CoT）监测作为控制AI Agent风险的新方法。研究指出，CoT通过自然语言推理使模型决策过程可视化，有助于检测异常行为。然而其可监测性受训练方式和模型架构影响，存在一定局限。OpenAI认为CoT已有实际成效，如GPT-4o成功识别代码攻击；而Anthropic则担忧模型可能隐藏真实推理路径，实验显示Claude 3.7 Sonnet仅25%承认使用提示。研究呼吁建立多层监测机制，并系统性探索模型可解释性，以应对日益严峻的AI安全挑战。
来源：https://mp.weixin.qq.com/s/JV3mIv1LyTMyE_GCwEdR2g

页: [1]

靠浦ai课堂's Archiver

OpenAI谷歌Anthropic罕见联手发研究！Ilya/Hinton/Bengio带头支持，共推CoT监测方案