大模型数学推理能力存疑:换变量即降智

[复制链接]
周大 发表于 2025-1-5 15:07:14 | 显示全部楼层 |阅读模式
斯坦福大学提出的Putnam-AXIOM测试集揭示了当前大模型在数学推理方面存在缺陷。研究发现,在更换变量名称或取值范围后,包括o1-preview、GPT-4在内的多个先进模型准确率大幅下降,从50%降至约33.96%。这表明现有模型可能依赖于记忆而非真正掌握解题逻辑。该测试集基于1985-2023年的Putnam数学竞赛题目,通过引入变量变化和常数变化生成变体数据集,有效避免了数据污染问题。实验结果凸显了提升大模型数学推理能力的重要性,并为未来研究提供了新的方向。
来源:https://mp.weixin.qq.com/s/GY9rqxXLyujEes2H3ycMDQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 03:24 , Processed in 0.290010 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表