OpenAI o3模型基准测试成绩遭质疑，实测分数远不及宣称

周大发表于 2025-4-21 13:46:09

OpenAI 的 o3 模型在 FrontierMath 上的得分因测试条件不同而存在显著差异，内部测试达 25%，第三方仅 10%。Epoch 和 ARC Prize 指出，差异可能与测试环境或模型版本相关。尽管公开版 o3 表现逊色，但后续版本已超越原成绩。此事件凸显人工智能行业竞争加剧，基准测试结果需谨慎对待，Meta 和 xAI 等公司也曾因类似问题受到质疑。
来源：https://tech.ifeng.com/c/8igRVj2iE2k

页: [1]

靠浦ai课堂's Archiver

OpenAI o3模型基准测试成绩遭质疑，实测分数远不及宣称