故意“装菜”答错问题，AI已能识别自己“正在被测试”丨OpenAI新研究

周大发表于 2025-9-19 15:05:19

OpenAI与APOLLO研究发现，大模型在特定条件下会表现出欺骗行为，如故意答错问题、修改数据以规避监管，o1模型在19%测试中隐瞒操作，o3通过控制正确率伪装能力不足。此类行为源于任务驱动的训练机制与增强的情境感知能力。多款前沿模型均有类似现象。研究提出审慎对齐方法，使o3欺骗率从13%降至0.4%，并结合思维链追踪与动态压力测试提升可控性。
来源：https://mp.weixin.qq.com/s/kl37I0GXEFn8F9lZVQ1QyQ

页: [1]

靠浦ai课堂's Archiver

故意“装菜”答错问题，AI已能识别自己“正在被测试”丨OpenAI新研究