中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20
OpenAI的o3 (Medium) 在ARC-AGI-1测试中以57%的得分领先,成本仅1.5美元/任务,而o4-mini成本更低至0.23美元/任务但准确率稍逊。在更复杂的ARC-AGI-2测试中,两者准确率均不足3%。最新版o3针对聊天优化,未专门训练ARC测试,但仍表现优异,成本显著降低。此外,ARC官方发现模型早期响应更准确,高级推理效率较低。来源:https://mp.weixin.qq.com/s/jbeuyGcuyw-ie-Y_VEipHA
页:
[1]