周大 发表于 2025-4-4 14:02:27

浙大上海AI Lab发布新基准,寻找多模态创造力天花板

浙江大学与上海人工智能实验室推出Creation-MMBench,这是全球首个针对多模态大模型(MLLMs)在真实场景中创作能力的评测基准。该基准包含四大任务类别、51项细粒度任务及765个高难度测试案例,通过视觉事实性评分和创意奖励分双重评估体系,全面衡量模型的多模态创造力。实验显示,闭源模型如GPT-4o在部分任务上表现优于开源模型,但开源模型也有不俗表现。此外,研究发现视觉指令微调可能限制模型的长文本创作能力。
来源:https://mp.weixin.qq.com/s/6uqcG--n4KZKj7nCEivrlQ
页: [1]
查看完整版本: 浙大上海AI Lab发布新基准,寻找多模态创造力天花板