多模态后训练反常识:长思维链SFT和RL的协同困境
华为与香港科大研究发现,长思维链监督微调(Long-CoT SFT)与强化学习(RL)在多模态视觉语言模型(VLM)中难以协同增效,甚至相互干扰。研究基于五个新构建的多模态推理榜单(MathVision等),将问题划分为五个难度等级(L1-L5),发现SFT在高难度题上提升显著但易导致简单题性能下降,RL则表现均衡但难以应对复杂推理。五种组合策略均未能实现叠加效果。研究还指出高质量推理轨迹、KL正则化和简单题训练的重要性,未来应探索自适应推理机制、模型亲和数据构建及分层评估体系。来源:https://mp.weixin.qq.com/s/NVG3hjr1xIuLKRSmqckrWg
页:
[1]