Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情
在强化学习中,智能体的奖励机制与设计者意图不一致可能导致不理想行为。当前常用的KL正则化技术虽然可以限制智能体行为,但有时仍会出现意外行为。为此,来自加州大学伯克利分校、Google DeepMind和蒙特利尔大学的研究人员提出了一种新理论方案,通过改变指导原则,使智能体更加谨慎。新方案的核心是从“不要做我不会做的事情”转变为“不要做我可能不会做的事情”。实验结果表明,即使奖励系统不完美,智能体也能找到简单策略获取奖励,但严格KL约束可能无法完全避免不理想行为。来源:https://mp.weixin.qq.com/s/oKz3QbqKPZCgVbcTkBKbEQ
页:
[1]