清华大学团队研究表明PPO算法在大模型对齐研究中展现优势

周大发表于 2024-7-22 15:21:13

清华大学助理教授吴翼及其团队在ICML 2024上发表论文，探讨了强化学习从人类反馈（RLHF）中DPO与PPO算法的优劣。研究发现，虽然学术界通常使用简化算法，但PPO在某些任务上，如代码生成，可能优于DPO。团队提出了改进DPO和PPO的关键技术，并展示了PPO在对话和代码生成任务上的最新最优性能，其开源模型Code Llama 34B在代码生成比赛中超越了闭源的AlphaCode。
来源：https://mp.weixin.qq.com/s/OV7WH6LKw1q9lGlmJbURwg

页: [1]

靠浦ai课堂's Archiver

清华大学团队研究表明PPO算法在大模型对齐研究中展现优势