GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

[复制链接]
周大 发表于 2025-11-13 17:28:27 | 显示全部楼层 |阅读模式
中山大学、快手可灵与港中文MMLab团队联合提出GRPO-Guard,旨在解决GRPO类方法在视觉生成流模型中因重要性比值分布偏移导致的过度优化问题。实验证明,该方法通过比率归一化与跨步梯度平衡,在FlowGRPO、DanceGRPO等多种算法及SD3.5-M、FLUX1.dev等模型上显著缓解了代理奖励上升而图像质量下降的现象,在GenEval、PickScore和文本渲染任务中保持稳定提升,有效增强训练稳定性与生成多样性,相关论文与代码已开源。
来源:https://mp.weixin.qq.com/s/gYmUzyD8SrefiZKtpuLCNA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 03:04 , Processed in 0.268778 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表