谷歌DeepMind的Gemini Deep Think模型以35分(满分42分)的成绩获得IMO官方认证金牌,成为首个达到IMO金牌标准的AI系统。该模型在4.5小时内用自然语言解决5道数学题,无需形式语言转换即可端到端生成严谨证明。其突破得益于增强推理模式Deep Think、并行思考及强化学习训练。谷歌计划向数学家测试者开放该模型。相比之下,OpenAI虽宣称获得金牌,但未获官方认证,且其模型版本未公开,引发争议。IMO组委会曾建议大模型公司延迟公布成绩,谷歌遵守规定,而OpenAI在闭幕后即发布结果。Anthropic研究员评价谷歌解法更清晰,OpenAI则强调其评分由外部专家确认。
来源:https://mp.weixin.qq.com/s/PtSxS75K4GIO3hLirNNaKQ