上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理

[复制链接]
周大 发表于 2025-8-9 14:41:22 | 显示全部楼层 |阅读模式
上海AI Lab与浙江大学EagleLab等联合提出RRVF训练框架,基于“验证非对称性”原则,通过推理-渲染-视觉反馈闭环系统,使AI在无图像-文本配对数据下自我学习。该方法通过视觉裁判模型提供反馈与混合奖励机制,并采用GRPO算法优化训练。实验显示,基于Qwen2.5-VL-7B训练的模型在图表生成任务中代码执行率达97.83%,显著优于传统监督方法。更令人惊讶的是,其性能甚至超越训练中使用的72B大模型,展现强大泛化能力。研究强调,未来AI发展的关键在于构建高效的验证环境,而非单纯追求模型规模。
来源:https://mp.weixin.qq.com/s/xXOngyeqQ3qVAHNxmKSTFA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 10:37 , Processed in 0.276096 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表