揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
研究人员对 R1-Zero 类似训练的基础模型和强化学习算法进行了深入分析,揭示了 DeepSeek-V3-Base 在强化学习之前已展现「顿悟时刻」,而 Qwen2.5 模型在无模板情况下也具备强大推理能力,这可能与预训练偏差有关。此外,研究指出 GRPO 优化算法存在偏差,可能导致错误响应长度增加,并提出改进版 Dr. GRPO。实验表明,使用 Dr. GRPO 和 Qwen-Math 模板后,7B 模型在 AIME 2024 数据集上实现了 43.3% 的准确率,达到新的 SOTA 水平。同时,领域特定预训练被证明能有效提升强化学习性能。来源:https://mp.weixin.qq.com/s/SBGO_1JXnI9CGcLL8eANBA
页:
[1]