周大 发表于 2025-1-10 15:19:25

7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火

微软全华人团队提出rStar-Math算法,通过三项创新技术使小语言模型(SLM)在数学推理方面超越大模型o1。该算法采用蒙特卡洛树搜索(MCTS),结合全新CoT数据合成及自我进化方案,在MATH基准测试中将准确率提升至90%,并在AIME竞赛中达到53.3%的解题率,跻身全美前20%高中生水平。经过四轮迭代优化,rStar-Math在多个高难度数学基准测试中表现出色,并展现出自我反思和跨领域泛化能力。
来源:https://mp.weixin.qq.com/s/KKoQILXVstwE-BAN_-VCvg
页: [1]
查看完整版本: 7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火