NeurIPS Spotlight | 基于信息论,决策模型有了全新预训练范式统一框架

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
来自之江实验室、香港中文大学和同济大学的研究团队提出了一种基于信息论的离线元强化学习新算法UNICORN。该算法首次系统性地提出了任务表示学习的理论框架,解决了现有方法缺乏系统性理论支持的问题。UNICORN在多种机器人连续控制任务中表现出色,尤其在分布外任务上具有显著优势。该研究成果被NeurIPS 2024接收为Spotlight文章,中稿率仅为2.08%。
来源:https://mp.weixin.qq.com/s/q7ecEiv5cPEwWyAvwfo_ig

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 11:46 , Processed in 0.264974 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表