只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题

[复制链接]
周大 发表于 8 小时前 | 显示全部楼层 |阅读模式
上海创智学院与上海AI Lab开发的新强化学习算法CPGD,显著提升了模型在多模态推理任务中的稳定性和性能。相比传统算法,CPGD在数学、物理、化学和生物领域表现出色,例如基于QwenVL2.5-7B的基础模型性能提升了11%。团队还推出了高质量数据集MMK12和多模态过程奖励模型MM-PRM,前者包含15000道多模态数学题,后者通过自动化监督流程优化推理路径。研究表明,强化学习虽能优化已有知识调用,但无法弥补知识缺失。目前,所有成果已开源,为学术界和工业界提供了重要的基础设施和技术参考。
来源:https://mp.weixin.qq.com/s/RDUPagBn8l00P7dNPHjBcA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-23 23:51 , Processed in 0.274772 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表