大模型解数学题和人类真不一样：死记硬背、知识欠缺明显，GPT-4o表现最佳

周大发表于 2024-7-23 15:14:56

北京邮电大学等机构的研究者开发了WE-MATH基准测试，旨在细粒度评估大型多模态模型(LMMs)在视觉数学推理任务中的表现。研究者创建了We-Math测评数据集，包含6.5k个涉及67个知识点的小学数学问题，旨在精细评估LMMs的推理机制。实验揭示，模型在复杂问题上表现良好，但在基础问题上存在不足，多数模型存在“知识掌握不足”和“死记硬背”的问题。GPT-4o在多项评估中表现突出，显示出较强的知识泛化能力。研究还发现，模型作答效果与题目难度（含知识点数量）成反比，为LMMs的发展提供了重要参考。
来源：https://mp.weixin.qq.com/s/uU1lZV0Ymj31cmZryhffyQ

页: [1]

靠浦ai课堂's Archiver

大模型解数学题和人类真不一样：死记硬背、知识欠缺明显，GPT-4o表现最佳