周大 发表于 2025-4-28 14:33:26

GeoSense:多模态大模型几何解题新基准

GeoSense作为首个双语综合基准,系统评估多模态大模型在几何解题中的表现。其包含5层知识架构与1789道几何问题,提出GPI(几何原理识别)和GPA(几何原理应用)两项创新指标。实验显示,Gemini-2.0-Pro-Flash表现最佳,而多模态大模型在平面几何领域表现较弱,主要受限于几何原理的识别与应用能力。研究发现,模型规模越大,推理能力越强,但在复杂问题中,几何原理识别不足成为主要瓶颈。
来源:https://mp.weixin.qq.com/s/Pz83EBkBvXfY8tlp2iV98w
页: [1]
查看完整版本: GeoSense:多模态大模型几何解题新基准