大语言模型在美数学奥赛中表现不佳

[复制链接]
周大 发表于 前天 13:36 | 显示全部楼层 |阅读模式
一项由ETH Zurich等机构进行的研究显示,顶级大语言模型(LLM)在美国数学奥林匹克竞赛(USAMO)中表现惨淡,得分均低于5%。其中,DeepSeek-R1表现最佳,得分为4.76%,而OpenAI o3-mini(high)仅获2.08%。研究指出,LLM存在逻辑错误、缺乏创造力和评分失败三大问题,并且模型常高估自身表现,与人类专家评分差距达20倍。尽管在代数运算上表现出色,但LLM在复杂推理和创造性策略上仍有显著不足,表明其尚未掌握高级数学证明能力。
来源:https://mp.weixin.qq.com/s/ThdLdjs3mBUQ7C70yUQzBg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-4 11:26 , Processed in 0.290325 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表