冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世

[复制链接]
周大 发表于 2025-8-14 14:57:06 | 显示全部楼层 |阅读模式
微软研究员提出了一种名为 Group Filtered Policy Optimization(GFPO)的强化学习算法,旨在解决当前推理模型响应冗长的问题。GFPO 在保持准确率的同时,可将多余 token 长度削减最多 80%。该算法基于 GRPO,通过采样更多响应并根据长度、token 效率等指标筛选最优响应进行训练,实现了多属性联合优化。实验表明,在 14B 参数模型上,GFPO 在 AIME、GPQA 等任务中实现了 70%-85% 的长度缩减,且准确率保持稳定或提升。其变体自适应难度 GFPO 还可根据问题难度动态调整训练策略,进一步提升效率。研究显示,GFPO 能有效减少极端冗长响应,并在解答与验证阶段显著优化推理长度。
来源:https://mp.weixin.qq.com/s/gXegvKs4BZxkeUa7CPnMqw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 06:44 , Processed in 0.288204 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表