上海AI实验室等发布图像编辑新基准RISEBench,GPT-4o-Image仅完成28.9%任务
上海人工智能实验室联合多校发布RISEBench,一个高质量图像编辑评测基准,涵盖时间、因果、空间和逻辑推理四大类型。测试结果显示,即使是性能最强的GPT-4o-Image,也只能完成28.9%的任务,而开源模型表现更差,最强者BAGEL仅达5.8%。评测从指令理解、外观一致性和视觉合理性三方面进行,揭示了现有模型在复杂推理任务上的不足,强调认知能力是未来发展的关键瓶颈。来源:https://mp.weixin.qq.com/s/5rrV6m6jXfFy2qtySUNKAg
页:
[1]