大模型后训练:少少SFT+大量RL

[复制链接]
周大 发表于 2025-3-23 14:37:43 | 显示全部楼层 |阅读模式
Thinking Machines Lab由前OpenAI CTO创立,其研究科学家Luke Metz在KHIPU 2025上分享了大模型后训练技术。他提出“少少SFT+大量RL”的策略,强调SFT构建基础行为模式,RL通过奖励函数优化性能。后训练阶段对软件系统要求更高,需关注高吞吐量而非低延迟,并提出了“主线模型”机制应对团队规模扩大带来的协作挑战。此外,还讨论了奖励优化、评估方法及组织挑战等多方面内容。
来源:https://mp.weixin.qq.com/s/o5lJzg2odLIDO-o7r6J-1Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 12:34 , Processed in 0.294128 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表