周大 发表于 2025-3-23 14:37:43

大模型后训练:少少SFT+大量RL

Thinking Machines Lab由前OpenAI CTO创立,其研究科学家Luke Metz在KHIPU 2025上分享了大模型后训练技术。他提出“少少SFT+大量RL”的策略,强调SFT构建基础行为模式,RL通过奖励函数优化性能。后训练阶段对软件系统要求更高,需关注高吞吐量而非低延迟,并提出了“主线模型”机制应对团队规模扩大带来的协作挑战。此外,还讨论了奖励优化、评估方法及组织挑战等多方面内容。
来源:https://mp.weixin.qq.com/s/o5lJzg2odLIDO-o7r6J-1Q
页: [1]
查看完整版本: 大模型后训练:少少SFT+大量RL