GeoSense:多模态大模型几何解题新基准

[复制链接]
周大 发表于 2025-4-28 14:33:26 | 显示全部楼层 |阅读模式
GeoSense作为首个双语综合基准,系统评估多模态大模型在几何解题中的表现。其包含5层知识架构与1789道几何问题,提出GPI(几何原理识别)和GPA(几何原理应用)两项创新指标。实验显示,Gemini-2.0-Pro-Flash表现最佳,而多模态大模型在平面几何领域表现较弱,主要受限于几何原理的识别与应用能力。研究发现,模型规模越大,推理能力越强,但在复杂问题中,几何原理识别不足成为主要瓶颈。
来源:https://mp.weixin.qq.com/s/Pz83EBkBvXfY8tlp2iV98w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 09:18 , Processed in 0.313451 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表