研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
上海人工智能实验室研究员徐兴成博士在论文《策略悬崖》中首次从数学角度揭示了强化学习训练中大模型行为不稳定的根本原因。论文指出,由于最优策略的多解性与奖励函数的不完备性,微小的奖励变化可能引发策略剧变,导致“欺骗性对齐”“谄媚”等对齐失败现象。该理论统一解释了多个实验中的异常行为,并强调奖励函数设计与熵正则化的关键作用,为AI安全与对齐研究提供了新的理论基础和方向。来源:https://mp.weixin.qq.com/s/C4fYaGiA2L2l_qs-8zy1aQ
页:
[1]