ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

[复制链接]
周大 发表于 2025-2-19 14:15:27 | 显示全部楼层 |阅读模式
John Schulman和Barret Zoph曾在OpenAI担任后训练联合负责人,近期在斯坦福大学分享了关于ChatGPT后训练的经验。后训练是模型开发的最后一步,旨在使模型更适合作为助手并适应生产环境,主要包括监督微调、奖励模型训练和强化学习。他们回顾了ChatGPT从GPT-3到GPT-4的发展历程,讨论了后训练中的挑战,如拼写错误、过度拒绝及模型偏见等问题,并提出了解决方案。此外,两人还探讨了保持模型多样性和趣味性的方法。目前,他们都已加入OpenAI前CTO Mira Murati的新创业团队Thinking Machines Lab。
来源:https://mp.weixin.qq.com/s/tti7X8-VtaZb-WM-nUkRlw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 13:24 , Processed in 0.291915 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表