陶哲轩都惊了!o3首战「AI奥数」碾压夺冠,开源军团仅差5分狂追OpenAI
在第二届人工智能数学奥林匹克(AIMO2)竞赛中,OpenAI的o3-preview模型在高算力条件下取得47/50分的优异成绩,甚至通过“采样-排序”机制实现满分。测试显示,算力越强模型表现越佳。相比之下,开源模型NemoSkills和imagination-research在更强硬件下得分提升至35/50。当算力受限时,开源与闭源模型性能差距缩小,前五名开源模型合并得分38/50,仅落后o3-preview低算力版本5分。研究还表明,o3-preview每题平均推理成本约1美元,与运行多个开源模型的成本相近。AIMO2-combined(2000多支队伍最优模型合并结果)得分也达47/50,显示群体智慧的潜力。下一届AIMO3将聚焦IMO级别难题,于2025年秋季启动。来源:https://mp.weixin.qq.com/s/jtDXIvaIgD-H1jcu7JHUNg
页:
[1]