Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人,一年给AI编出8000万道数学题训练

[复制链接]
周大 发表于 2025-11-13 17:29:15 | 显示全部楼层 |阅读模式
谷歌DeepMind在《Nature》发表AlphaProof完整技术方案,该30亿参数AI基于Lean构建强化学习环境,通过8万TPU天训练,结合自动形式化与测试时强化学习(TTRL),在2024年IMO中解出三道难题并获金牌水平。系统利用8000万自动生成的形式化问题进行训练,并能通过生成40万变体提升单题求解能力。尽管存在对Lean依赖和新定义适应不足等局限,其在反例发现和引理验证方面已展现科研辅助潜力,标志着AI数学推理的重要进展。
来源:https://mp.weixin.qq.com/s/0dIxgWGR8N2JuBbCzz1Uew

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 03:06 , Processed in 0.256908 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表