中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
中科大研究团队提出了一种名为ROUSER的鲁棒动作价值表征学习方法,解决了视觉强化学习中长期信息缺失的问题。该方法基于信息瓶颈框架,通过最大化表征与动作价值之间的互信息,同时滤除无关特征,有效捕捉决策目标中的长期信息。实验结果显示,ROUSER在12项任务中于11项表现最优,显著提升了智能体在背景干扰与颜色干扰环境下的泛化能力。此外,ROUSER还兼容离散控制任务,进一步拓展了其应用范围。来源:https://mp.weixin.qq.com/s/oue8WZkqkwTwR4uJTzuUMA
页:
[1]