OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下

[复制链接]
周大 发表于 前天 14:31 | 显示全部楼层 |阅读模式
港大研究人员对OpenAI o1-mini模型进行了严格测试,使用国际数学奥林匹克(IMO)和中国国家队训练营(CNT)试题。通过对比o1-mini在两个数据集上的表现,发现其成绩无显著差异,表明该模型具备真正的数学推理能力而非简单记忆。实验采用标准评分方法,结果显示o1-mini在不同类型问题上均能提供正确答案,但在部分复杂问题上仍存在逻辑不严谨的情况。这一研究为评估大型语言模型的真实推理能力提供了新视角。
来源:https://mp.weixin.qq.com/s/rH917FomAHUo-io42XwHNQ

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 12:40 , Processed in 0.275497 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表