DeepSeek发布Prover-V2强化数学推理能力

[复制链接]
周大 发表于 2025-5-1 14:24:28 | 显示全部楼层 |阅读模式
DeepSeek发布Prover-V2系列模型,包括7B和671B两个版本,采用递归与强化学习结合的训练方法,支持快速和逻辑两种解题风格。模型训练分两阶段,通过GRPO算法优化推理能力,并将大模型能力“蒸馏”至小模型以适配有限资源设备。Prover-V2在MiniF2F测试中通过率高达88.9%,同步推出数学数据集ProverBench,涵盖多领域问题。这标志着大型语言模型在非正式与正式数学推理间的差距正逐渐缩小,推理成为DeepSeek下注的核心方向。
来源:https://tech.ifeng.com/c/8izd3NbnvBm

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 09:15 , Processed in 0.279664 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表