研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

周大发表于 2025-8-13 15:15:03

上海人工智能实验室研究员徐兴成博士在论文《策略悬崖》中首次从数学角度揭示了强化学习训练中大模型行为不稳定的根本原因。论文指出，由于最优策略的多解性与奖励函数的不完备性，微小的奖励变化可能引发策略剧变，导致“欺骗性对齐”“谄媚”等对齐失败现象。该理论统一解释了多个实验中的异常行为，并强调奖励函数设计与熵正则化的关键作用，为AI安全与对齐研究提供了新的理论基础和方向。
来源：https://mp.weixin.qq.com/s/C4fYaGiA2L2l_qs-8zy1aQ

		自动登录	找回密码
密码			立即注册

课程导航

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现