华人团队提出InFOM新方法实现RL预训练突破,在复杂任务中性能提升最高达20倍
加州大学伯克利分校团队提出新型强化学习方法InFOM,结合流匹配与意图感知的占据模型,不依赖奖励信号即可实现跨任务迁移。该方法通过潜在变量编码用户意图,并利用流匹配预测多步未来状态,提升了在稀疏奖励任务中的表现。实验显示,在ExORL和OGBench基准测试中,InFOM在多数任务上优于现有方法,其中Jaco任务性能提升达20倍,成功率较最佳基线提高36%。相比传统无监督技能发现方法,InFOM结构更简洁、训练更高效,展现出在复杂意图推理任务中的潜力。来源:https://mp.weixin.qq.com/s/WyJuhjkmreZ2clSw1XvHiw
页:
[1]