北大AI奥数评测，o1-mini比o1-preview分数还高

周大发表于 2024-9-22 15:24:54

北京大学与阿里巴巴联合推出Omni-MATH评测基准，评估大型语言模型在数学竞赛中的表现。该评测集包含4428道竞赛级问题，涵盖33个子领域，分为10个难度级别。o1-mini表现最佳，开源模型Qwen2-MATH-72b超越GPT-4o。Omni-MATH具备人工验证答案、清晰难度分类和广泛题目类型等特点。
来源：https://mp.weixin.qq.com/s/lnd6ttsn_FJ-2BicSy2PvQ

页: [1]

靠浦ai课堂's Archiver

北大AI奥数评测，o1-mini比o1-preview分数还高