在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
厦门大学纪荣嵘团队提出 CPPO(完成剪枝策略优化),显著加速 GRPO 算法的训练过程。CPPO 通过剪枝低优势完成结果和动态分配策略,在 GSM8K 和 MATH 基准上分别实现 8.32 倍和 3.51 倍的加速,同时保持或提高模型准确度。该方法还优化了 GPU 利用率,并在分布外任务上展现出良好的泛化能力。实验证明 CPPO 具有稳定的训练过程和更快的收敛速度,为大规模推理模型训练提供了高效解决方案。
来源:https://mp.weixin.qq.com/s/7AygQMOcfk57yGqtGHhTDA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 04:55 , Processed in 0.302312 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表