ConRFT强化微调VLA模型性能显著提升

周大发表于 2025-4-18 15:13:25

中科院自动化所提出ConRFT方法，通过离线与在线两阶段强化微调VLA模型，解决机器人操作任务中数据不足与策略不一致的问题。离线阶段基于少量演示初始化可靠策略，在线阶段结合人在回路学习优化性能。实验显示，ConRFT在8个真实任务中成功率高达96.3%，轨迹长度缩短1.9倍，样本效率显著提升。该研究被RSS 2025接收，展示强化学习在机器人应用中的潜力。
来源：https://mp.weixin.qq.com/s/qmKMdDRuNc7WFx9k-pz-Tg

页: [1]

靠浦ai课堂's Archiver

ConRFT强化微调VLA模型性能显著提升