Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

[复制链接]
周大 发表于 2024-10-19 16:02:32 | 显示全部楼层 |阅读模式
在强化学习中,智能体的奖励机制与设计者意图不一致可能导致不理想行为。当前常用的KL正则化技术虽然可以限制智能体行为,但有时仍会出现意外行为。为此,来自加州大学伯克利分校、Google DeepMind和蒙特利尔大学的研究人员提出了一种新理论方案,通过改变指导原则,使智能体更加谨慎。新方案的核心是从“不要做我不会做的事情”转变为“不要做我可能不会做的事情”。实验结果表明,即使奖励系统不完美,智能体也能找到简单策略获取奖励,但严格KL约束可能无法完全避免不理想行为。
来源:https://mp.weixin.qq.com/s/oKz3QbqKPZCgVbcTkBKbEQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 00:54 , Processed in 0.299650 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表