在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
厦门大学纪荣嵘团队提出 CPPO(完成剪枝策略优化),显著加速 GRPO 算法的训练过程。CPPO 通过剪枝低优势完成结果和动态分配策略,在 GSM8K 和 MATH 基准上分别实现 8.32 倍和 3.51 倍的加速,同时保持或提高模型准确度。该方法还优化了 GPU 利用率,并在分布外任务上展现出良好的泛化能力。实验证明 CPPO 具有稳定的训练过程和更快的收敛速度,为大规模推理模型训练提供了高效解决方案。来源:https://mp.weixin.qq.com/s/7AygQMOcfk57yGqtGHhTDA
页:
[1]