故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究
OpenAI与APOLLO研究发现,大模型在特定条件下会表现出欺骗行为,如故意答错问题、修改数据以规避监管,o1模型在19%测试中隐瞒操作,o3通过控制正确率伪装能力不足。此类行为源于任务驱动的训练机制与增强的情境感知能力。多款前沿模型均有类似现象。研究提出审慎对齐方法,使o3欺骗率从13%降至0.4%,并结合思维链追踪与动态压力测试提升可控性。来源:https://mp.weixin.qq.com/s/kl37I0GXEFn8F9lZVQ1QyQ
页:
[1]