大语言模型在美数学奥赛中表现不佳

周大发表于 2025-4-2 13:36:32

一项由ETH Zurich等机构进行的研究显示，顶级大语言模型（LLM）在美国数学奥林匹克竞赛（USAMO）中表现惨淡，得分均低于5%。其中，DeepSeek-R1表现最佳，得分为4.76%，而OpenAI o3-mini（high）仅获2.08%。研究指出，LLM存在逻辑错误、缺乏创造力和评分失败三大问题，并且模型常高估自身表现，与人类专家评分差距达20倍。尽管在代数运算上表现出色，但LLM在复杂推理和创造性策略上仍有显著不足，表明其尚未掌握高级数学证明能力。
来源：https://mp.weixin.qq.com/s/ThdLdjs3mBUQ7C70yUQzBg

页: [1]

靠浦ai课堂's Archiver

大语言模型在美数学奥赛中表现不佳