首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距
MME-Benchmarks团队提出MME-Unify(MME-U),作为首个系统性评估统一多模态大模型(U-MLLMs)的benchmark。MME-U涵盖理解、生成与统一任务三大能力板块,设计了10大类任务、30个子任务,并引入五类“统一任务”以考察多模态协同处理能力。实测结果显示,当前U-MLLMs在复杂生成任务和指令理解方面仍有不足,且开放模型与闭源模型间存在显著性能差距。MME-U填补了评测标准空白,为未来模型设计提供了重要参考。来源:https://mp.weixin.qq.com/s/FDFFEn3FjpImdNIWfyg3jw
页:
[1]