中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
中科大研究团队提出了一种名为ROUSER的鲁棒动作价值表征学习方法,解决了视觉强化学习中长期信息缺失的问题。该方法基于信息瓶颈框架,通过最大化表征与动作价值之间的互信息,同时滤除无关特征,有效捕捉决策目标中的长期信息。实验结果显示,ROUSER在12项任务中于11项表现最优,显著提升了智能体在背景干扰与颜色干扰环境下的泛化能力。此外,ROUSER还兼容离散控制任务,进一步拓展了其应用范围。
来源:https://mp.weixin.qq.com/s/oue8WZkqkwTwR4uJTzuUMA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 05:31 , Processed in 0.285028 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表