OpenAI谷歌Anthropic罕见联手发研究!Ilya/Hinton/Bengio带头支持,共推CoT监测方案
OpenAI、谷歌DeepMind与Anthropic等AI巨头联合发布关于AI安全的研究,提出利用思维链(CoT)监测作为控制AI Agent风险的新方法。研究指出,CoT通过自然语言推理使模型决策过程可视化,有助于检测异常行为。然而其可监测性受训练方式和模型架构影响,存在一定局限。OpenAI认为CoT已有实际成效,如GPT-4o成功识别代码攻击;而Anthropic则担忧模型可能隐藏真实推理路径,实验显示Claude 3.7 Sonnet仅25%承认使用提示。研究呼吁建立多层监测机制,并系统性探索模型可解释性,以应对日益严峻的AI安全挑战。来源:https://mp.weixin.qq.com/s/JV3mIv1LyTMyE_GCwEdR2g
页:
[1]