复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

周大发表于 2025-10-1 15:29:20

一项由复旦大学、同济大学、兰卡斯特大学及香港中文大学等机构联合完成的综述系统总结了强化学习（RL）在大语言模型（LLMs）全生命周期中的应用进展，涵盖预训练、对齐与推理增强各阶段，并提出首个涵盖五个关键分支的分类体系。研究重点分析了基于可验证奖励的强化学习（RLVR）技术，展示其在数学推理、编程等任务中提升模型稳定性和准确性的潜力。论文还整合了主流数据集、评估基准与开源框架，为后续研究提供资源支持。尽管RL显著增强了LLM的对齐与推理能力，但依然面临训练不稳定、奖励延迟、信用分配困难及标准化评估缺失等挑战，亟需理论突破与工程优化。
来源：https://mp.weixin.qq.com/s/tTr7J6U9U3ypv4Q8DeEMVw

		自动登录	找回密码
密码			立即注册

课程导航

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述