多模态后训练反常识:长思维链SFT和RL的协同困境

[复制链接]
周大 发表于 2025-8-2 15:55:24 | 显示全部楼层 |阅读模式
华为与香港科大研究发现,长思维链监督微调(Long-CoT SFT)与强化学习(RL)在多模态视觉语言模型(VLM)中难以协同增效,甚至相互干扰。研究基于五个新构建的多模态推理榜单(MathVision等),将问题划分为五个难度等级(L1-L5),发现SFT在高难度题上提升显著但易导致简单题性能下降,RL则表现均衡但难以应对复杂推理。五种组合策略均未能实现叠加效果。研究还指出高质量推理轨迹、KL正则化和简单题训练的重要性,未来应探索自适应推理机制、模型亲和数据构建及分层评估体系。
来源:https://mp.weixin.qq.com/s/NVG3hjr1xIuLKRSmqckrWg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 17:04 , Processed in 0.296196 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表