周大 发表于 2024-7-22 15:21:13

清华大学团队研究表明PPO算法在大模型对齐研究中展现优势

清华大学助理教授吴翼及其团队在ICML 2024上发表论文,探讨了强化学习从人类反馈(RLHF)中DPO与PPO算法的优劣。研究发现,虽然学术界通常使用简化算法,但PPO在某些任务上,如代码生成,可能优于DPO。团队提出了改进DPO和PPO的关键技术,并展示了PPO在对话和代码生成任务上的最新最优性能,其开源模型Code Llama 34B在代码生成比赛中超越了闭源的AlphaCode。
来源:https://mp.weixin.qq.com/s/OV7WH6LKw1q9lGlmJbURwg
页: [1]
查看完整版本: 清华大学团队研究表明PPO算法在大模型对齐研究中展现优势