周大 发表于 2025-7-21 14:12:19

美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈

美团团队提出Metis-RISE训练框架,通过先强化学习(RL)激发模型探索能力,再监督微调(SFT)精准补足短板,有效提升多模态大语言模型(MLLMs)的推理表现。基于Qwen2.5-VL系列训练出7B与72B参数模型,在OpenCompass榜单中Metis-RISE-7B以46.4分领先同类模型,Metis-RISE-72B则以56.6分位居>10B模型榜首,并在整体排名第四,超越多个知名专有模型。消融实验验证RL与SFT阶段的协同增益,团队未来将探索训练方法的迭代优化与更复杂场景的应用拓展。
来源:https://mp.weixin.qq.com/s/1PssR0Tlik2Eq0Vce9uyew
页: [1]
查看完整版本: 美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈