只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

周大发表于 2025-6-23 15:01:04

上海创智学院与上海AI Lab开发的新强化学习算法CPGD，显著提升了模型在多模态推理任务中的稳定性和性能。相比传统算法，CPGD在数学、物理、化学和生物领域表现出色，例如基于QwenVL2.5-7B的基础模型性能提升了11%。团队还推出了高质量数据集MMK12和多模态过程奖励模型MM-PRM，前者包含15000道多模态数学题，后者通过自动化监督流程优化推理路径。研究表明，强化学习虽能优化已有知识调用，但无法弥补知识缺失。目前，所有成果已开源，为学术界和工业界提供了重要的基础设施和技术参考。
来源：https://mp.weixin.qq.com/s/RDUPagBn8l00P7dNPHjBcA

页: [1]

靠浦ai课堂's Archiver

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题