中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

周大发表于 2025-4-23 14:30:20

OpenAI的o3 (Medium) 在ARC-AGI-1测试中以57%的得分领先，成本仅1.5美元/任务，而o4-mini成本更低至0.23美元/任务但准确率稍逊。在更复杂的ARC-AGI-2测试中，两者准确率均不足3%。最新版o3针对聊天优化，未专门训练ARC测试，但仍表现优异，成本显著降低。此外，ARC官方发现模型早期响应更准确，高级推理效率较低。
来源：https://mp.weixin.qq.com/s/jbeuyGcuyw-ie-Y_VEipHA

页: [1]

靠浦ai课堂's Archiver

中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20