7B模型数学推理击穿o1，直逼全美20%尖子生！四轮进化，微软华人新作爆火

周大发表于 2025-1-10 15:19:25

微软全华人团队提出rStar-Math算法，通过三项创新技术使小语言模型(SLM)在数学推理方面超越大模型o1。该算法采用蒙特卡洛树搜索(MCTS)，结合全新CoT数据合成及自我进化方案，在MATH基准测试中将准确率提升至90%，并在AIME竞赛中达到53.3%的解题率，跻身全美前20%高中生水平。经过四轮迭代优化，rStar-Math在多个高难度数学基准测试中表现出色，并展现出自我反思和跨领域泛化能力。
来源：https://mp.weixin.qq.com/s/KKoQILXVstwE-BAN_-VCvg

页: [1]

靠浦ai课堂's Archiver

7B模型数学推理击穿o1，直逼全美20%尖子生！四轮进化，微软华人新作爆火