OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
港大研究人员对OpenAI o1-mini模型进行了严格测试,使用国际数学奥林匹克(IMO)和中国国家队训练营(CNT)试题。通过对比o1-mini在两个数据集上的表现,发现其成绩无显著差异,表明该模型具备真正的数学推理能力而非简单记忆。实验采用标准评分方法,结果显示o1-mini在不同类型问题上均能提供正确答案,但在部分复杂问题上仍存在逻辑不严谨的情况。这一研究为评估大型语言模型的真实推理能力提供了新视角。来源:https://mp.weixin.qq.com/s/rH917FomAHUo-io42XwHNQ
页:
[1]