强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
强化学习专家 Richard Sutton 团队提出了一种名为“奖励聚中”的新方法,通过从奖励中减去平均奖励,使奖励以均值为中心,从而提高强化学习算法的学习速度和性能。实验结果显示,该方法在较大的折扣因子下尤为有效,可以显著提升 Q 学习算法的性能。该论文已被首届强化学习会议(RLC 2024)收录。来源:https://mp.weixin.qq.com/s/lwoq764gVSFjsEhzPS3ChQ
页:
[1]