周大 发表于 2025-6-25 15:08:56

港大与上海AI Lab推出VLN-R1框架,实现机器人连续视觉语言导航,2B模型性能超越7B

VLN-R1是由港大与上海AI Lab研发的视觉语言导航模型,首次实现基于第一人称视角的连续导航控制,无需依赖离散地图即可完成复杂环境中的避障与目标定位。该模型在VLN-CE基准测试中表现优异,使用仅20亿参数的Qwen2-VL通过强化微调(RFT)便超越70亿参数模型的性能,并在长距离跨域任务中展现高效数据利用能力。其核心创新包括两阶段训练机制、时间衰减奖励(TDR)、GRPO算法及VLN-Ego数据集构建,显著提升了小模型的实际应用潜力,为家庭机器人等资源受限场景提供了新路径。
来源:https://mp.weixin.qq.com/s/XhcnUxYUXi2jvX51u3zpsw
页: [1]
查看完整版本: 港大与上海AI Lab推出VLN-R1框架,实现机器人连续视觉语言导航,2B模型性能超越7B