强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

[复制链接]
周大 发表于 2024-11-1 14:08:57 | 显示全部楼层 |阅读模式
强化学习专家 Richard Sutton 团队提出了一种名为“奖励聚中”的新方法,通过从奖励中减去平均奖励,使奖励以均值为中心,从而提高强化学习算法的学习速度和性能。实验结果显示,该方法在较大的折扣因子下尤为有效,可以显著提升 Q 学习算法的性能。该论文已被首届强化学习会议(RLC 2024)收录。
来源:https://mp.weixin.qq.com/s/lwoq764gVSFjsEhzPS3ChQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-17 03:50 , Processed in 0.300079 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表