周大 发表于 2024-7-23 15:14:56

大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

北京邮电大学等机构的研究者开发了WE-MATH基准测试,旨在细粒度评估大型多模态模型(LMMs)在视觉数学推理任务中的表现。研究者创建了We-Math测评数据集,包含6.5k个涉及67个知识点的小学数学问题,旨在精细评估LMMs的推理机制。实验揭示,模型在复杂问题上表现良好,但在基础问题上存在不足,多数模型存在“知识掌握不足”和“死记硬背”的问题。GPT-4o在多项评估中表现突出,显示出较强的知识泛化能力。研究还发现,模型作答效果与题目难度(含知识点数量)成反比,为LMMs的发展提供了重要参考。
来源:https://mp.weixin.qq.com/s/uU1lZV0Ymj31cmZryhffyQ
页: [1]
查看完整版本: 大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳