超越DeepSeek推理，效率更高！斯坦福马腾宇新作：有限数据，无限迭代

周大发表于 2025-2-28 15:00:22

斯坦福大学研究人员提出了一种名为STP（自博弈定理证明器）的新方法。该方法通过让模型同时扮演“猜想者”和“证明者”角色，互相提供训练信号，在有限的数据下实现了无限自我改进。相比现有方法，STP在Lean和Isabelle验证器上的表现显著提升，证明成功率翻倍。实验结果显示，经过约1.2亿个证明和200万个猜想的训练后，STP成功证明了LeanWorkbook中26.3%的命题，并在多个基准测试中达到了最先进的性能。这种方法有效解决了大型语言模型推理能力受限于高质量训练数据不足的问题。
来源：https://mp.weixin.qq.com/s/kUXsI4ojeaOIMClZqlNjEg

		自动登录	找回密码
密码			立即注册

课程导航

超越DeepSeek推理，效率更高！斯坦福马腾宇新作：有限数据，无限迭代