精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
中南大学与中兴通讯团队提出PISM与CMAB两种多模态样本难度量化方法,首次系统验证仅用强化学习(GRPO-only)且跳过SFT的训练范式可行性。实验表明,在中等与高难度样本上训练,MathVista达68.3、OCRBench达77.8、MMMU提升0.107,全面超越传统SFT+RL流程,证明样本难度比训练范式更关键,为多模态大模型后训练提供了高效新路径。
来源:https://mp.weixin.qq.com/s/9EJj65uOeL08dTXz44btsQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-12-1 06:07 , Processed in 0.258860 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表