把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

周大发表于 2024-12-27 15:46:29

北卡罗来纳大学等机构提出GRAPE算法，通过偏好对齐提升视觉-语言-动作(VLA)模型的机器人策略泛化能力。该算法具有全局决策、隐式奖励建模和可扩展偏好合成三大优势。实验表明，在多种分布外(OOD)任务中，GRAPE相比现有最佳模型性能提升显著(20.7%-27.5%)，并在安全性、效率等特定目标下表现优异，碰撞率降低44.31%，执行轨迹缩短11.15%。
来源：https://mp.weixin.qq.com/s/pf8LSX0jNyWvwN3eSojUFw

页: [1]

靠浦ai课堂's Archiver

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源