上海AI实验室等发布图像编辑新基准RISEBench，GPT-4o-Image仅完成28.9%任务

周大发表于 2025-5-30 14:17:06

上海人工智能实验室联合多校发布RISEBench，一个高质量图像编辑评测基准，涵盖时间、因果、空间和逻辑推理四大类型。测试结果显示，即使是性能最强的GPT-4o-Image，也只能完成28.9%的任务，而开源模型表现更差，最强者BAGEL仅达5.8%。评测从指令理解、外观一致性和视觉合理性三方面进行，揭示了现有模型在复杂推理任务上的不足，强调认知能力是未来发展的关键瓶颈。
来源：https://mp.weixin.qq.com/s/5rrV6m6jXfFy2qtySUNKAg

页: [1]

靠浦ai课堂's Archiver

上海AI实验室等发布图像编辑新基准RISEBench，GPT-4o-Image仅完成28.9%任务