把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源
北卡罗来纳大学等机构提出GRAPE算法,通过偏好对齐提升视觉-语言-动作(VLA)模型的机器人策略泛化能力。该算法具有全局决策、隐式奖励建模和可扩展偏好合成三大优势。实验表明,在多种分布外(OOD)任务中,GRAPE相比现有最佳模型性能提升显著(20.7%-27.5%),并在安全性、效率等特定目标下表现优异,碰撞率降低44.31%,执行轨迹缩短11.15%。来源:https://mp.weixin.qq.com/s/pf8LSX0jNyWvwN3eSojUFw
页:
[1]