打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%
Meta GenAI和FAIR团队提出的CGPO框架通过混合评审机制和约束优化器,有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO核心在于混合评审机制和约束优化器,能够自动识别并消除奖励欺骗行为,找到不同任务间的最优平衡点。实验数据显示,CGPO在多项任务中大幅超越现有RLHF算法,如PPO和DPO,特别是在数学推理和编程任务中表现突出。CGPO为多任务学习的未来提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。来源:https://mp.weixin.qq.com/s/OL4atcyG0xY1f9ElCQ_KRA
页:
[1]