多模态大模型ReasonMap评测:北京杭州地铁图最难,GPT-o3领先但仍不及人类
西湖大学、新加坡国立大学等机构联合提出了ReasonMap,这是首个针对高分辨率地铁图的多模态推理评测基准。该基准通过高分辨率图像(平均5839×5449)和复杂空间推理任务,评估多模态大模型在路径规划和细粒度视觉理解方面的能力。实验结果表明,主流开源模型在跨线路路径规划中常出现混淆或遗漏,而强化学习训练的闭源模型表现更佳,但仍逊色于人类水平。ReasonMap具备高分辨率挑战、难度感知设计及多维度评估体系,能有效揭示模型短板,为未来研究提供重要参考。来源:https://mp.weixin.qq.com/s/sPJLQtHgl5DZghWLWa_H3Q
页:
[1]