浙大上海AI Lab发布新基准,寻找多模态创造力天花板

[复制链接]
周大 发表于 2025-4-4 14:02:27 | 显示全部楼层 |阅读模式
浙江大学与上海人工智能实验室推出Creation-MMBench,这是全球首个针对多模态大模型(MLLMs)在真实场景中创作能力的评测基准。该基准包含四大任务类别、51项细粒度任务及765个高难度测试案例,通过视觉事实性评分和创意奖励分双重评估体系,全面衡量模型的多模态创造力。实验显示,闭源模型如GPT-4o在部分任务上表现优于开源模型,但开源模型也有不俗表现。此外,研究发现视觉指令微调可能限制模型的长文本创作能力。
来源:https://mp.weixin.qq.com/s/6uqcG--n4KZKj7nCEivrlQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 21:03 , Processed in 0.312499 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表