中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

周大发表于 2025-3-31 13:57:02

中科大研究团队提出了一种名为ROUSER的鲁棒动作价值表征学习方法，解决了视觉强化学习中长期信息缺失的问题。该方法基于信息瓶颈框架，通过最大化表征与动作价值之间的互信息，同时滤除无关特征，有效捕捉决策目标中的长期信息。实验结果显示，ROUSER在12项任务中于11项表现最优，显著提升了智能体在背景干扰与颜色干扰环境下的泛化能力。此外，ROUSER还兼容离散控制任务，进一步拓展了其应用范围。
来源：https://mp.weixin.qq.com/s/oue8WZkqkwTwR4uJTzuUMA

		自动登录	找回密码
密码			立即注册

课程导航

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失