NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架
来自之江实验室、香港中文大学和同济大学的研究团队提出了一种基于信息论的离线元强化学习新算法UNICORN。该算法首次系统性地提出了任务表示学习的理论框架,解决了现有方法缺乏系统性理论支持的问题。UNICORN在多种机器人连续控制任务中表现出色,尤其在分布外任务上具有显著优势。该研究成果被NeurIPS 2024接收为Spotlight文章,中稿率仅为2.08%。来源:https://mp.weixin.qq.com/s/q7ecEiv5cPEwWyAvwfo_ig
页:
[1]