ConRFT强化微调VLA模型性能显著提升
中科院自动化所提出ConRFT方法,通过离线与在线两阶段强化微调VLA模型,解决机器人操作任务中数据不足与策略不一致的问题。离线阶段基于少量演示初始化可靠策略,在线阶段结合人在回路学习优化性能。实验显示,ConRFT在8个真实任务中成功率高达96.3%,轨迹长度缩短1.9倍,样本效率显著提升。该研究被RSS 2025接收,展示强化学习在机器人应用中的潜力。来源:https://mp.weixin.qq.com/s/qmKMdDRuNc7WFx9k-pz-Tg
页:
[1]