周大 发表于 2025-5-25 15:24:18

微软研究院用7B模型实现o1级推理能力

微软亚洲研究院张丽团队突破传统Scaling Law路径,率先探索大模型深度推理能力。通过引入认知科学概念“System2”,团队利用蒙特卡洛搜索算法,成功让7B参数规模的模型达到OpenAI o1级别的数学推理水平。这一成果引发学界与业界广泛关注,特别是在强化学习主导的当下提供了新思路。rStar-Math不仅展示了强大的数学推理能力,还具有广泛的任务泛化潜力,未来可能扩展至代码推理等复杂任务。同时,研究强调了奖励模型在未来大模型发展中的关键作用,为提升模型智商上限开辟了新方向。
来源:https://mp.weixin.qq.com/s/ah3FZc-jbLpo9157Y93yng
页: [1]
查看完整版本: 微软研究院用7B模型实现o1级推理能力