强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

周大发表于 2024-11-1 14:08:57

强化学习专家 Richard Sutton 团队提出了一种名为“奖励聚中”的新方法，通过从奖励中减去平均奖励，使奖励以均值为中心，从而提高强化学习算法的学习速度和性能。实验结果显示，该方法在较大的折扣因子下尤为有效，可以显著提升 Q 学习算法的性能。该论文已被首届强化学习会议（RLC 2024）收录。
来源：https://mp.weixin.qq.com/s/lwoq764gVSFjsEhzPS3ChQ

页: [1]

靠浦ai课堂's Archiver

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法