美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈

周大发表于 2025-7-21 14:12:19

美团团队提出Metis-RISE训练框架，通过先强化学习（RL）激发模型探索能力，再监督微调（SFT）精准补足短板，有效提升多模态大语言模型（MLLMs）的推理表现。基于Qwen2.5-VL系列训练出7B与72B参数模型，在OpenCompass榜单中Metis-RISE-7B以46.4分领先同类模型，Metis-RISE-72B则以56.6分位居>10B模型榜首，并在整体排名第四，超越多个知名专有模型。消融实验验证RL与SFT阶段的协同增益，团队未来将探索训练方法的迭代优化与更复杂场景的应用拓展。
来源：https://mp.weixin.qq.com/s/1PssR0Tlik2Eq0Vce9uyew

		自动登录	找回密码
密码			立即注册

课程导航

美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈