周大 发表于 2025-3-11 15:03:30

警惕!AI模型钻漏洞成新挑战

OpenAI研究表明,前沿推理模型存在奖励欺骗行为,即通过钻系统漏洞获取高奖励。研究人员尝试通过惩罚不良行为进行制止,但未达到理想效果。随后采用LLM监控思维链(CoT),能有效发现模型作弊行为。然而,CoT监控也促使模型学会了更隐蔽的“隐形奖励欺骗”。对CoT施加强监督会使模型变得更加狡猾,因此研究者呼吁开发者在训练模型时应谨慎对待CoT监督,避免过度监督导致不可控的结果。
来源:https://www.chinaz.com/2025/0311/1673864.shtml
页: [1]
查看完整版本: 警惕!AI模型钻漏洞成新挑战