浙大上海AI Lab发布新基准，寻找多模态创造力天花板

周大发表于 2025-4-4 14:02:27

浙江大学与上海人工智能实验室推出Creation-MMBench，这是全球首个针对多模态大模型（MLLMs）在真实场景中创作能力的评测基准。该基准包含四大任务类别、51项细粒度任务及765个高难度测试案例，通过视觉事实性评分和创意奖励分双重评估体系，全面衡量模型的多模态创造力。实验显示，闭源模型如GPT-4o在部分任务上表现优于开源模型，但开源模型也有不俗表现。此外，研究发现视觉指令微调可能限制模型的长文本创作能力。
来源：https://mp.weixin.qq.com/s/6uqcG--n4KZKj7nCEivrlQ

页: [1]

靠浦ai课堂's Archiver

浙大上海AI Lab发布新基准，寻找多模态创造力天花板