John Schulman和Barret Zoph曾在OpenAI担任后训练联合负责人,近期在斯坦福大学分享了关于ChatGPT后训练的经验。后训练是模型开发的最后一步,旨在使模型更适合作为助手并适应生产环境,主要包括监督微调、奖励模型训练和强化学习。他们回顾了ChatGPT从GPT-3到GPT-4的发展历程,讨论了后训练中的挑战,如拼写错误、过度拒绝及模型偏见等问题,并提出了解决方案。此外,两人还探讨了保持模型多样性和趣味性的方法。目前,他们都已加入OpenAI前CTO Mira Murati的新创业团队Thinking Machines Lab。
来源:https://mp.weixin.qq.com/s/tti7X8-VtaZb-WM-nUkRlw