中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

[复制链接]
周大 发表于 2025-4-23 14:30:20 | 显示全部楼层 |阅读模式
OpenAI的o3 (Medium) 在ARC-AGI-1测试中以57%的得分领先,成本仅1.5美元/任务,而o4-mini成本更低至0.23美元/任务但准确率稍逊。在更复杂的ARC-AGI-2测试中,两者准确率均不足3%。最新版o3针对聊天优化,未专门训练ARC测试,但仍表现优异,成本显著降低。此外,ARC官方发现模型早期响应更准确,高级推理效率较低。
来源:https://mp.weixin.qq.com/s/jbeuyGcuyw-ie-Y_VEipHA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 11:02 , Processed in 0.283385 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表