中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
中国科学技术大学研究团队提出一种创新后训练范式 Curr-ReFT,解决小规模视觉-语言模型(VLMs)在推理能力和域外泛化上的瓶颈问题。研究表明,强化学习方法较传统监督微调更具优势,但小模型易遇“砖墙”现象。Curr-ReFT 通过课程强化学习与拒绝采样策略,实现任务复杂度渐进提升及高质量样本选择性学习,显著优化模型性能,实验结果表明其在多模态任务中超越大规模模型表现。来源:https://mp.weixin.qq.com/s/Gj8Gr-WilIqfff2uuNRaLw
页:
[1]