把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

[复制链接]
周大 发表于 2024-12-27 15:46:29 | 显示全部楼层 |阅读模式
北卡罗来纳大学等机构提出GRAPE算法,通过偏好对齐提升视觉-语言-动作(VLA)模型的机器人策略泛化能力。该算法具有全局决策、隐式奖励建模和可扩展偏好合成三大优势。实验表明,在多种分布外(OOD)任务中,GRAPE相比现有最佳模型性能提升显著(20.7%-27.5%),并在安全性、效率等特定目标下表现优异,碰撞率降低44.31%,执行轨迹缩短11.15%。
来源:https://mp.weixin.qq.com/s/pf8LSX0jNyWvwN3eSojUFw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 11:22 , Processed in 0.299720 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表