Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
上海人工智能实验室等机构联合推出首个面向多学科的文生图考试基准GenExam,涵盖10大学科、1000道高难度绘图题,强调知识理解、逻辑推理与精准生成。测试显示,即便GPT-4o在严格评分下正确率仅12.1%,开源模型近乎全军覆没,暴露当前模型在专业场景中普遍存在知识整合与细节准确性缺陷,凸显迈向专家级AI仍面临重大挑战。
来源:https://mp.weixin.qq.com/s/r0J8AwQnC-_66PW3vqZKBA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 11:27 , Processed in 0.269254 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表