研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现

[复制链接]
周大 发表于 2025-8-13 15:15:03 | 显示全部楼层 |阅读模式
上海人工智能实验室研究员徐兴成博士在论文《策略悬崖》中首次从数学角度揭示了强化学习训练中大模型行为不稳定的根本原因。论文指出,由于最优策略的多解性与奖励函数的不完备性,微小的奖励变化可能引发策略剧变,导致“欺骗性对齐”“谄媚”等对齐失败现象。该理论统一解释了多个实验中的异常行为,并强调奖励函数设计与熵正则化的关键作用,为AI安全与对齐研究提供了新的理论基础和方向。
来源:https://mp.weixin.qq.com/s/C4fYaGiA2L2l_qs-8zy1aQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 06:44 , Processed in 0.286409 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表