周大 发表于 2025-3-12 15:31:37

多模态训练后模型能力雪崩,上海AI Lab全面探索MLLM偏好对齐与模态融合

上海交大等联合团队研究发现,开源多模态大语言模型在VQA任务上表现逊色于闭源模型。通过实验表明,多模态训练导致语言能力退化,而单纯增加高质量语言数据效果有限。团队提出OmniAlign-V数据构建Pipeline,包含205k高质量数据,并构建MM-AlignBench基准。实验结果显示,使用OmniAlign-V相关数据集可显著提升模型性能,但与顶尖闭源模型仍存在差距,引发对未来模态融合技术路线的思考。
来源:https://mp.weixin.qq.com/s/349DO7ziIprtZwtu0Zzz8A
页: [1]
查看完整版本: 多模态训练后模型能力雪崩,上海AI Lab全面探索MLLM偏好对齐与模态融合