清华大学团队研究表明PPO算法在大模型对齐研究中展现优势

[复制链接]
周大 发表于 2024-7-22 15:21:13 | 显示全部楼层 |阅读模式
清华大学助理教授吴翼及其团队在ICML 2024上发表论文,探讨了强化学习从人类反馈(RLHF)中DPO与PPO算法的优劣。研究发现,虽然学术界通常使用简化算法,但PPO在某些任务上,如代码生成,可能优于DPO。团队提出了改进DPO和PPO的关键技术,并展示了PPO在对话和代码生成任务上的最新最优性能,其开源模型Code Llama 34B在代码生成比赛中超越了闭源的AlphaCode。
来源:https://mp.weixin.qq.com/s/OV7WH6LKw1q9lGlmJbURwg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 01:28 , Processed in 0.281163 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表