周大 发表于 2025-1-14 14:23:53

国产深度推理模型逼近国际领先水平

清华SuperBench团队利用2025年考研数学试题,对国内外多个深度推理模型进行了严格评测。结果显示,OpenAI的GPT-o1模型以平均分140+的成绩领先,国产GLM-Zero-Preview以138.7分紧随其后,QwQ位列第三。此次评测涵盖13个模型,揭示了深度推理模型在数学推理上的显著进步,尤其是OpenAI、智谱和阿里等厂商的模型性能大幅提升。尽管GPT-o1仍处于领先地位,但国产模型正在迅速缩小差距。测试还发现,部分基础模型如DeepSeek-v3也展现了较强的逻辑推理能力,进一步证明了深度思考模型的巨大潜力。
来源:https://mp.weixin.qq.com/s/zxPziBf8ji8mimX-ECFtSw
页: [1]
查看完整版本: 国产深度推理模型逼近国际领先水平