周大 发表于 2024-9-22 15:24:54

北大AI奥数评测,o1-mini比o1-preview分数还高

北京大学与阿里巴巴联合推出Omni-MATH评测基准,评估大型语言模型在数学竞赛中的表现。该评测集包含4428道竞赛级问题,涵盖33个子领域,分为10个难度级别。o1-mini表现最佳,开源模型Qwen2-MATH-72b超越GPT-4o。Omni-MATH具备人工验证答案、清晰难度分类和广泛题目类型等特点。
来源:https://mp.weixin.qq.com/s/lnd6ttsn_FJ-2BicSy2PvQ
页: [1]
查看完整版本: 北大AI奥数评测,o1-mini比o1-preview分数还高