微软研究院用7B模型实现o1级推理能力

周大发表于 2025-5-25 15:24:18

微软亚洲研究院张丽团队突破传统Scaling Law路径，率先探索大模型深度推理能力。通过引入认知科学概念“System2”，团队利用蒙特卡洛搜索算法，成功让7B参数规模的模型达到OpenAI o1级别的数学推理水平。这一成果引发学界与业界广泛关注，特别是在强化学习主导的当下提供了新思路。rStar-Math不仅展示了强大的数学推理能力，还具有广泛的任务泛化潜力，未来可能扩展至代码推理等复杂任务。同时，研究强调了奖励模型在未来大模型发展中的关键作用，为提升模型智商上限开辟了新方向。
来源：https://mp.weixin.qq.com/s/ah3FZc-jbLpo9157Y93yng

页: [1]

靠浦ai课堂's Archiver

微软研究院用7B模型实现o1级推理能力