周大 发表于 2024-10-19 16:02:32

Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

在强化学习中,智能体的奖励机制与设计者意图不一致可能导致不理想行为。当前常用的KL正则化技术虽然可以限制智能体行为,但有时仍会出现意外行为。为此,来自加州大学伯克利分校、Google DeepMind和蒙特利尔大学的研究人员提出了一种新理论方案,通过改变指导原则,使智能体更加谨慎。新方案的核心是从“不要做我不会做的事情”转变为“不要做我可能不会做的事情”。实验结果表明,即使奖励系统不完美,智能体也能找到简单策略获取奖励,但严格KL约束可能无法完全避免不理想行为。
来源:https://mp.weixin.qq.com/s/oKz3QbqKPZCgVbcTkBKbEQ
页: [1]
查看完整版本: Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情