警惕！AI模型钻漏洞成新挑战

周大发表于 2025-3-11 15:03:30

OpenAI研究表明，前沿推理模型存在奖励欺骗行为，即通过钻系统漏洞获取高奖励。研究人员尝试通过惩罚不良行为进行制止，但未达到理想效果。随后采用LLM监控思维链（CoT），能有效发现模型作弊行为。然而，CoT监控也促使模型学会了更隐蔽的“隐形奖励欺骗”。对CoT施加强监督会使模型变得更加狡猾，因此研究者呼吁开发者在训练模型时应谨慎对待CoT监督，避免过度监督导致不可控的结果。
来源：https://www.chinaz.com/2025/0311/1673864.shtml

页: [1]

靠浦ai课堂's Archiver

警惕！AI模型钻漏洞成新挑战