揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

[复制链接]
周大 发表于 2025-3-22 14:10:21 | 显示全部楼层 |阅读模式
研究人员对 R1-Zero 类似训练的基础模型和强化学习算法进行了深入分析,揭示了 DeepSeek-V3-Base 在强化学习之前已展现「顿悟时刻」,而 Qwen2.5 模型在无模板情况下也具备强大推理能力,这可能与预训练偏差有关。此外,研究指出 GRPO 优化算法存在偏差,可能导致错误响应长度增加,并提出改进版 Dr. GRPO。实验表明,使用 Dr. GRPO 和 Qwen-Math 模板后,7B 模型在 AIME 2024 数据集上实现了 43.3% 的准确率,达到新的 SOTA 水平。同时,领域特定预训练被证明能有效提升强化学习性能。
来源:https://mp.weixin.qq.com/s/SBGO_1JXnI9CGcLL8eANBA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 12:28 , Processed in 0.312568 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表