美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈

[复制链接]
周大 发表于 2025-7-21 14:12:19 | 显示全部楼层 |阅读模式
美团团队提出Metis-RISE训练框架,通过先强化学习(RL)激发模型探索能力,再监督微调(SFT)精准补足短板,有效提升多模态大语言模型(MLLMs)的推理表现。基于Qwen2.5-VL系列训练出7B与72B参数模型,在OpenCompass榜单中Metis-RISE-7B以46.4分领先同类模型,Metis-RISE-72B则以56.6分位居>10B模型榜首,并在整体排名第四,超越多个知名专有模型。消融实验验证RL与SFT阶段的协同增益,团队未来将探索训练方法的迭代优化与更复杂场景的应用拓展。
来源:https://mp.weixin.qq.com/s/1PssR0Tlik2Eq0Vce9uyew

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 08:16 , Processed in 0.285419 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表