DeepSeek发布Prover-V2强化数学推理能力
DeepSeek发布Prover-V2系列模型,包括7B和671B两个版本,采用递归与强化学习结合的训练方法,支持快速和逻辑两种解题风格。模型训练分两阶段,通过GRPO算法优化推理能力,并将大模型能力“蒸馏”至小模型以适配有限资源设备。Prover-V2在MiniF2F测试中通过率高达88.9%,同步推出数学数据集ProverBench,涵盖多领域问题。这标志着大型语言模型在非正式与正式数学推理间的差距正逐渐缩小,推理成为DeepSeek下注的核心方向。来源:https://tech.ifeng.com/c/8izd3NbnvBm
页:
[1]