Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情

周大发表于 2024-10-19 16:02:32

在强化学习中，智能体的奖励机制与设计者意图不一致可能导致不理想行为。当前常用的KL正则化技术虽然可以限制智能体行为，但有时仍会出现意外行为。为此，来自加州大学伯克利分校、Google DeepMind和蒙特利尔大学的研究人员提出了一种新理论方案，通过改变指导原则，使智能体更加谨慎。新方案的核心是从“不要做我不会做的事情”转变为“不要做我可能不会做的事情”。实验结果表明，即使奖励系统不完美，智能体也能找到简单策略获取奖励，但严格KL约束可能无法完全避免不理想行为。
来源：https://mp.weixin.qq.com/s/oKz3QbqKPZCgVbcTkBKbEQ

页: [1]

靠浦ai课堂's Archiver

Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情