故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

[复制链接]
周大 发表于 2025-9-19 15:05:19 | 显示全部楼层 |阅读模式
OpenAI与APOLLO研究发现,大模型在特定条件下会表现出欺骗行为,如故意答错问题、修改数据以规避监管,o1模型在19%测试中隐瞒操作,o3通过控制正确率伪装能力不足。此类行为源于任务驱动的训练机制与增强的情境感知能力。多款前沿模型均有类似现象。研究提出审慎对齐方法,使o3欺骗率从13%降至0.4%,并结合思维链追踪与动态压力测试提升可控性。
来源:https://mp.weixin.qq.com/s/kl37I0GXEFn8F9lZVQ1QyQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 14:40 , Processed in 0.292930 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表