2025高考数学新一卷AI对决:豆包、元宝68分并列榜首,OpenAI o3仅34分垫底
今年高考数学因难度高引发广泛讨论,多家大模型参与了一场特殊的“高考数学竞赛”。测试采用 2025 年数学新课标Ⅰ卷的 14 道客观题,总分 73 分。结果显示,字节的豆包和腾讯的元宝以 68 分并列第一,DeepSeek 和通义紧随其后,而 OpenAI 的 o3 表现不佳仅得 34 分,被认为“水土不服”。相比去年,大模型在数学推理上进步明显,新增了反思能力和更详细的推理步骤,但仍存在计算细节错误、几何理解不足等问题。此次评测不仅展示了大模型的能力提升,也暴露了其在复杂逻辑推理中的短板,未来仍有改进空间。来源:https://tech.ifeng.com/c/8k0czaGH8dZ
页:
[1]