周大 发表于 2025-6-29 14:59:01

RL与LLM结合成重要方向,从后训练到预训练潜力待挖,但道路坎坷

LLM 与强化学习(RL)结合正从后训练走向预训练阶段,微软研究院及清华、北大团队提出的 Reinforcement Pre-Training(RPT)方法尝试将强化学习引入预训练过程,通过重构 NTP 任务为推理问题,使模型在部分推理基准中超越更大体量的传统模型。相比依赖大量人工标注数据的监督学习,RL 利用奖励机制降低数据质量要求,但其训练资源消耗大、泛化能力尚待验证仍是主要挑战。当前 RLHF、RLAIF 等后训练技术已较成熟,而预训练阶段的探索仍处于早期,虽具潜力但道路坎坷。
来源:https://mp.weixin.qq.com/s/WvfyaXv4SXFHjAJsu6FXrg
页: [1]
查看完整版本: RL与LLM结合成重要方向,从后训练到预训练潜力待挖,但道路坎坷