周大 发表于 2025-8-14 14:57:06

冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

微软研究员提出了一种名为 Group Filtered Policy Optimization(GFPO)的强化学习算法,旨在解决当前推理模型响应冗长的问题。GFPO 在保持准确率的同时,可将多余 token 长度削减最多 80%。该算法基于 GRPO,通过采样更多响应并根据长度、token 效率等指标筛选最优响应进行训练,实现了多属性联合优化。实验表明,在 14B 参数模型上,GFPO 在 AIME、GPQA 等任务中实现了 70%-85% 的长度缩减,且准确率保持稳定或提升。其变体自适应难度 GFPO 还可根据问题难度动态调整训练策略,进一步提升效率。研究显示,GFPO 能有效减少极端冗长响应,并在解答与验证阶段显著优化推理长度。
来源:https://mp.weixin.qq.com/s/gXegvKs4BZxkeUa7CPnMqw
页: [1]
查看完整版本: 冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世