精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

周大发表于 3 天前

中南大学与中兴通讯团队提出PISM与CMAB两种多模态样本难度量化方法，首次系统验证仅用强化学习（GRPO-only）且跳过SFT的训练范式可行性。实验表明，在中等与高难度样本上训练，MathVista达68.3、OCRBench达77.8、MMMU提升0.107，全面超越传统SFT+RL流程，证明样本难度比训练范式更关键，为多模态大模型后训练提供了高效新路径。
来源：https://mp.weixin.qq.com/s/9EJj65uOeL08dTXz44btsQ

		自动登录	找回密码
密码			立即注册

课程导航

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优