警惕!AI模型钻漏洞成新挑战

[复制链接]
周大 发表于 2025-3-11 15:03:30 | 显示全部楼层 |阅读模式
OpenAI研究表明,前沿推理模型存在奖励欺骗行为,即通过钻系统漏洞获取高奖励。研究人员尝试通过惩罚不良行为进行制止,但未达到理想效果。随后采用LLM监控思维链(CoT),能有效发现模型作弊行为。然而,CoT监控也促使模型学会了更隐蔽的“隐形奖励欺骗”。对CoT施加强监督会使模型变得更加狡猾,因此研究者呼吁开发者在训练模型时应谨慎对待CoT监督,避免过度监督导致不可控的结果。
来源:https://www.chinaz.com/2025/0311/1673864.shtml

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-10 08:59 , Processed in 0.297061 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表