首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

[复制链接]
周大 发表于 2025-4-9 14:16:27 | 显示全部楼层 |阅读模式
MME-Benchmarks团队提出MME-Unify(MME-U),作为首个系统性评估统一多模态大模型(U-MLLMs)的benchmark。MME-U涵盖理解、生成与统一任务三大能力板块,设计了10大类任务、30个子任务,并引入五类“统一任务”以考察多模态协同处理能力。实测结果显示,当前U-MLLMs在复杂生成任务和指令理解方面仍有不足,且开放模型与闭源模型间存在显著性能差距。MME-U填补了评测标准空白,为未来模型设计提供了重要参考。
来源:https://mp.weixin.qq.com/s/FDFFEn3FjpImdNIWfyg3jw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 20:08 , Processed in 0.281992 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表