首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

周大发表于 2025-4-9 14:16:27

MME-Benchmarks团队提出MME-Unify（MME-U），作为首个系统性评估统一多模态大模型（U-MLLMs）的benchmark。MME-U涵盖理解、生成与统一任务三大能力板块，设计了10大类任务、30个子任务，并引入五类“统一任务”以考察多模态协同处理能力。实测结果显示，当前U-MLLMs在复杂生成任务和指令理解方面仍有不足，且开放模型与闭源模型间存在显著性能差距。MME-U填补了评测标准空白，为未来模型设计提供了重要参考。
来源：https://mp.weixin.qq.com/s/FDFFEn3FjpImdNIWfyg3jw

页: [1]

靠浦ai课堂's Archiver

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距