中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

周大发表于 2025-4-14 14:22:55

中国科学技术大学研究团队提出一种创新后训练范式 Curr-ReFT，解决小规模视觉-语言模型（VLMs）在推理能力和域外泛化上的瓶颈问题。研究表明，强化学习方法较传统监督微调更具优势，但小模型易遇“砖墙”现象。Curr-ReFT 通过课程强化学习与拒绝采样策略，实现任务复杂度渐进提升及高质量样本选择性学习，显著优化模型性能，实验结果表明其在多模态任务中超越大规模模型表现。
来源：https://mp.weixin.qq.com/s/Gj8Gr-WilIqfff2uuNRaLw

页: [1]

靠浦ai课堂's Archiver

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理