RL与LLM结合成重要方向，从后训练到预训练潜力待挖，但道路坎坷

周大发表于 2025-6-29 14:59:01

LLM 与强化学习（RL）结合正从后训练走向预训练阶段，微软研究院及清华、北大团队提出的 Reinforcement Pre-Training（RPT）方法尝试将强化学习引入预训练过程，通过重构 NTP 任务为推理问题，使模型在部分推理基准中超越更大体量的传统模型。相比依赖大量人工标注数据的监督学习，RL 利用奖励机制降低数据质量要求，但其训练资源消耗大、泛化能力尚待验证仍是主要挑战。当前 RLHF、RLAIF 等后训练技术已较成熟，而预训练阶段的探索仍处于早期，虽具潜力但道路坎坷。
来源：https://mp.weixin.qq.com/s/WvfyaXv4SXFHjAJsu6FXrg

页: [1]

靠浦ai课堂's Archiver

RL与LLM结合成重要方向，从后训练到预训练潜力待挖，但道路坎坷