OpenAI o3模型基准测试成绩遭质疑,实测分数远不及宣称
OpenAI 的 o3 模型在 FrontierMath 上的得分因测试条件不同而存在显著差异,内部测试达 25%,第三方仅 10%。Epoch 和 ARC Prize 指出,差异可能与测试环境或模型版本相关。尽管公开版 o3 表现逊色,但后续版本已超越原成绩。此事件凸显人工智能行业竞争加剧,基准测试结果需谨慎对待,Meta 和 xAI 等公司也曾因类似问题受到质疑。来源:https://tech.ifeng.com/c/8igRVj2iE2k
页:
[1]