上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
上海AI Lab与浙江大学EagleLab等联合提出RRVF训练框架,基于“验证非对称性”原则,通过推理-渲染-视觉反馈闭环系统,使AI在无图像-文本配对数据下自我学习。该方法通过视觉裁判模型提供反馈与混合奖励机制,并采用GRPO算法优化训练。实验显示,基于Qwen2.5-VL-7B训练的模型在图表生成任务中代码执行率达97.83%,显著优于传统监督方法。更令人惊讶的是,其性能甚至超越训练中使用的72B大模型,展现强大泛化能力。研究强调,未来AI发展的关键在于构建高效的验证环境,而非单纯追求模型规模。来源:https://mp.weixin.qq.com/s/xXOngyeqQ3qVAHNxmKSTFA
页:
[1]