中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

[复制链接]
周大 发表于 2025-4-14 14:22:55 | 显示全部楼层 |阅读模式
中国科学技术大学研究团队提出一种创新后训练范式 Curr-ReFT,解决小规模视觉-语言模型(VLMs)在推理能力和域外泛化上的瓶颈问题。研究表明,强化学习方法较传统监督微调更具优势,但小模型易遇“砖墙”现象。Curr-ReFT 通过课程强化学习与拒绝采样策略,实现任务复杂度渐进提升及高质量样本选择性学习,显著优化模型性能,实验结果表明其在多模态任务中超越大规模模型表现。
来源:https://mp.weixin.qq.com/s/Gj8Gr-WilIqfff2uuNRaLw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 21:07 , Processed in 0.271851 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表