上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理

周大发表于 2025-8-9 14:41:22

上海AI Lab与浙江大学EagleLab等联合提出RRVF训练框架，基于“验证非对称性”原则，通过推理-渲染-视觉反馈闭环系统，使AI在无图像-文本配对数据下自我学习。该方法通过视觉裁判模型提供反馈与混合奖励机制，并采用GRPO算法优化训练。实验显示，基于Qwen2.5-VL-7B训练的模型在图表生成任务中代码执行率达97.83%，显著优于传统监督方法。更令人惊讶的是，其性能甚至超越训练中使用的72B大模型，展现强大泛化能力。研究强调，未来AI发展的关键在于构建高效的验证环境，而非单纯追求模型规模。
来源：https://mp.weixin.qq.com/s/xXOngyeqQ3qVAHNxmKSTFA

		自动登录	找回密码
密码			立即注册

课程导航

上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理