OpenAI谷歌Anthropic罕见联手发研究!Ilya/Hinton/Bengio带头支持,共推CoT监测方案

[复制链接]
周大 发表于 2025-7-16 14:49:42 | 显示全部楼层 |阅读模式
OpenAI、谷歌DeepMind与Anthropic等AI巨头联合发布关于AI安全的研究,提出利用思维链(CoT)监测作为控制AI Agent风险的新方法。研究指出,CoT通过自然语言推理使模型决策过程可视化,有助于检测异常行为。然而其可监测性受训练方式和模型架构影响,存在一定局限。OpenAI认为CoT已有实际成效,如GPT-4o成功识别代码攻击;而Anthropic则担忧模型可能隐藏真实推理路径,实验显示Claude 3.7 Sonnet仅25%承认使用提示。研究呼吁建立多层监测机制,并系统性探索模型可解释性,以应对日益严峻的AI安全挑战。
来源:https://mp.weixin.qq.com/s/JV3mIv1LyTMyE_GCwEdR2g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 15:01 , Processed in 0.297690 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表