2025高考数学新一卷AI对决：豆包、元宝68分并列榜首，OpenAI o3仅34分垫底

周大发表于 2025-6-8 14:46:53

今年高考数学因难度高引发广泛讨论，多家大模型参与了一场特殊的“高考数学竞赛”。测试采用 2025 年数学新课标Ⅰ卷的 14 道客观题，总分 73 分。结果显示，字节的豆包和腾讯的元宝以 68 分并列第一，DeepSeek 和通义紧随其后，而 OpenAI 的 o3 表现不佳仅得 34 分，被认为“水土不服”。相比去年，大模型在数学推理上进步明显，新增了反思能力和更详细的推理步骤，但仍存在计算细节错误、几何理解不足等问题。此次评测不仅展示了大模型的能力提升，也暴露了其在复杂逻辑推理中的短板，未来仍有改进空间。
来源：https://tech.ifeng.com/c/8k0czaGH8dZ

页: [1]

靠浦ai课堂's Archiver

2025高考数学新一卷AI对决：豆包、元宝68分并列榜首，OpenAI o3仅34分垫底