在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

周大发表于 2025-4-1 15:29:29

厦门大学纪荣嵘团队提出 CPPO（完成剪枝策略优化），显著加速 GRPO 算法的训练过程。CPPO 通过剪枝低优势完成结果和动态分配策略，在 GSM8K 和 MATH 基准上分别实现 8.32 倍和 3.51 倍的加速，同时保持或提高模型准确度。该方法还优化了 GPU 利用率，并在分布外任务上展现出良好的泛化能力。实验证明 CPPO 具有稳定的训练过程和更快的收敛速度，为大规模推理模型训练提供了高效解决方案。
来源：https://mp.weixin.qq.com/s/7AygQMOcfk57yGqtGHhTDA

页: [1]

靠浦ai课堂's Archiver

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电