ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

周大发表于 2025-2-19 14:15:27

John Schulman和Barret Zoph曾在OpenAI担任后训练联合负责人，近期在斯坦福大学分享了关于ChatGPT后训练的经验。后训练是模型开发的最后一步，旨在使模型更适合作为助手并适应生产环境，主要包括监督微调、奖励模型训练和强化学习。他们回顾了ChatGPT从GPT-3到GPT-4的发展历程，讨论了后训练中的挑战，如拼写错误、过度拒绝及模型偏见等问题，并提出了解决方案。此外，两人还探讨了保持模型多样性和趣味性的方法。目前，他们都已加入OpenAI前CTO Mira Murati的新创业团队Thinking Machines Lab。
来源：https://mp.weixin.qq.com/s/tti7X8-VtaZb-WM-nUkRlw

		自动登录	找回密码
密码			立即注册

课程导航

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～