国产深度推理模型逼近国际领先水平

周大发表于 2025-1-14 14:23:53

清华SuperBench团队利用2025年考研数学试题，对国内外多个深度推理模型进行了严格评测。结果显示，OpenAI的GPT-o1模型以平均分140+的成绩领先，国产GLM-Zero-Preview以138.7分紧随其后，QwQ位列第三。此次评测涵盖13个模型，揭示了深度推理模型在数学推理上的显著进步，尤其是OpenAI、智谱和阿里等厂商的模型性能大幅提升。尽管GPT-o1仍处于领先地位，但国产模型正在迅速缩小差距。测试还发现，部分基础模型如DeepSeek-v3也展现了较强的逻辑推理能力，进一步证明了深度思考模型的巨大潜力。
来源：https://mp.weixin.qq.com/s/zxPziBf8ji8mimX-ECFtSw

页: [1]

靠浦ai课堂's Archiver

国产深度推理模型逼近国际领先水平