ConRFT强化微调VLA模型性能显著提升

[复制链接]
周大 发表于 2025-4-18 15:13:25 | 显示全部楼层 |阅读模式
中科院自动化所提出ConRFT方法,通过离线与在线两阶段强化微调VLA模型,解决机器人操作任务中数据不足与策略不一致的问题。离线阶段基于少量演示初始化可靠策略,在线阶段结合人在回路学习优化性能。实验显示,ConRFT在8个真实任务中成功率高达96.3%,轨迹长度缩短1.9倍,样本效率显著提升。该研究被RSS 2025接收,展示强化学习在机器人应用中的潜力。
来源:https://mp.weixin.qq.com/s/qmKMdDRuNc7WFx9k-pz-Tg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 11:19 , Processed in 0.284669 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表