OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下

周大发表于 2024-12-21 14:31:18

港大研究人员对OpenAI o1-mini模型进行了严格测试，使用国际数学奥林匹克（IMO）和中国国家队训练营（CNT）试题。通过对比o1-mini在两个数据集上的表现，发现其成绩无显著差异，表明该模型具备真正的数学推理能力而非简单记忆。实验采用标准评分方法，结果显示o1-mini在不同类型问题上均能提供正确答案，但在部分复杂问题上仍存在逻辑不严谨的情况。这一研究为评估大型语言模型的真实推理能力提供了新视角。
来源：https://mp.weixin.qq.com/s/rH917FomAHUo-io42XwHNQ

页: [1]

靠浦ai课堂's Archiver

OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下