周大 发表于 3 天前

Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点

上海人工智能实验室等机构联合推出首个面向多学科的文生图考试基准GenExam,涵盖10大学科、1000道高难度绘图题,强调知识理解、逻辑推理与精准生成。测试显示,即便GPT-4o在严格评分下正确率仅12.1%,开源模型近乎全军覆没,暴露当前模型在专业场景中普遍存在知识整合与细节准确性缺陷,凸显迈向专家级AI仍面临重大挑战。
来源:https://mp.weixin.qq.com/s/r0J8AwQnC-_66PW3vqZKBA
页: [1]
查看完整版本: Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点