Richard S. Sutton 及其团队近期提出强化学习新算法 Swift-Sarsa,旨在提升线性控制任务的性能。该算法基于 SwiftTD,融合步长优化与衰减机制,在新提出的“操作性条件反射基准”测试中表现出色,生命周期平均奖励接近最优值。研究显示,Swift-Sarsa 在参数鲁棒性和控制性能方面具有优势,结合预处理方法后可达到与深度强化学习相当的效果,为未来经验驱动型 AI 提供了新方向。
来源:https://mp.weixin.qq.com/s/I8IE8Ck-k5OoAy7SLqi9-Q