打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

周大发表于 2024-11-1 14:23:45

Meta GenAI和FAIR团队提出的CGPO框架通过混合评审机制和约束优化器，有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO核心在于混合评审机制和约束优化器，能够自动识别并消除奖励欺骗行为，找到不同任务间的最优平衡点。实验数据显示，CGPO在多项任务中大幅超越现有RLHF算法，如PPO和DPO，特别是在数学推理和编程任务中表现突出。CGPO为多任务学习的未来提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。
来源：https://mp.weixin.qq.com/s/OL4atcyG0xY1f9ElCQ_KRA

页: [1]

靠浦ai课堂's Archiver

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%