OpenAI o3模型基准测试成绩遭质疑,实测分数远不及宣称

[复制链接]
周大 发表于 2025-4-21 13:46:09 | 显示全部楼层 |阅读模式
OpenAI 的 o3 模型在 FrontierMath 上的得分因测试条件不同而存在显著差异,内部测试达 25%,第三方仅 10%。Epoch 和 ARC Prize 指出,差异可能与测试环境或模型版本相关。尽管公开版 o3 表现逊色,但后续版本已超越原成绩。此事件凸显人工智能行业竞争加剧,基准测试结果需谨慎对待,Meta 和 xAI 等公司也曾因类似问题受到质疑。
来源:https://tech.ifeng.com/c/8igRVj2iE2k

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 12:15 , Processed in 0.287145 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表