RL与LLM结合成重要方向,从后训练到预训练潜力待挖,但道路坎坷
LLM 与强化学习(RL)结合正从后训练走向预训练阶段,微软研究院及清华、北大团队提出的 Reinforcement Pre-Training(RPT)方法尝试将强化学习引入预训练过程,通过重构 NTP 任务为推理问题,使模型在部分推理基准中超越更大体量的传统模型。相比依赖大量人工标注数据的监督学习,RL 利用奖励机制降低数据质量要求,但其训练资源消耗大、泛化能力尚待验证仍是主要挑战。当前 RLHF、RLAIF 等后训练技术已较成熟,而预训练阶段的探索仍处于早期,虽具潜力但道路坎坷。来源:https://mp.weixin.qq.com/s/WvfyaXv4SXFHjAJsu6FXrg
页:
[1]