只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
上海创智学院与上海AI Lab开发的新强化学习算法CPGD,显著提升了模型在多模态推理任务中的稳定性和性能。相比传统算法,CPGD在数学、物理、化学和生物领域表现出色,例如基于QwenVL2.5-7B的基础模型性能提升了11%。团队还推出了高质量数据集MMK12和多模态过程奖励模型MM-PRM,前者包含15000道多模态数学题,后者通过自动化监督流程优化推理路径。研究表明,强化学习虽能优化已有知识调用,但无法弥补知识缺失。目前,所有成果已开源,为学术界和工业界提供了重要的基础设施和技术参考。来源:https://mp.weixin.qq.com/s/RDUPagBn8l00P7dNPHjBcA
页:
[1]