揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

周大发表于 2025-3-22 14:10:21

研究人员对 R1-Zero 类似训练的基础模型和强化学习算法进行了深入分析，揭示了 DeepSeek-V3-Base 在强化学习之前已展现「顿悟时刻」，而 Qwen2.5 模型在无模板情况下也具备强大推理能力，这可能与预训练偏差有关。此外，研究指出 GRPO 优化算法存在偏差，可能导致错误响应长度增加，并提出改进版 Dr. GRPO。实验表明，使用 Dr. GRPO 和 Qwen-Math 模板后，7B 模型在 AIME 2024 数据集上实现了 43.3% 的准确率，达到新的 SOTA 水平。同时，领域特定预训练被证明能有效提升强化学习性能。
来源：https://mp.weixin.qq.com/s/SBGO_1JXnI9CGcLL8eANBA

页: [1]

靠浦ai课堂's Archiver

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案