大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

[复制链接]
周大 发表于 2024-7-23 15:14:56 | 显示全部楼层 |阅读模式
北京邮电大学等机构的研究者开发了WE-MATH基准测试,旨在细粒度评估大型多模态模型(LMMs)在视觉数学推理任务中的表现。研究者创建了We-Math测评数据集,包含6.5k个涉及67个知识点的小学数学问题,旨在精细评估LMMs的推理机制。实验揭示,模型在复杂问题上表现良好,但在基础问题上存在不足,多数模型存在“知识掌握不足”和“死记硬背”的问题。GPT-4o在多项评估中表现突出,显示出较强的知识泛化能力。研究还发现,模型作答效果与题目难度(含知识点数量)成反比,为LMMs的发展提供了重要参考。
来源:https://mp.weixin.qq.com/s/uU1lZV0Ymj31cmZryhffyQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 03:40 , Processed in 0.289897 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表