中科院联合美团提出SRFT方法，单阶段结合监督强化微调，推理泛化双提升

周大发表于 2025-7-2 15:14:23

中国科学院自动化研究所联合美团提出SRFT方法，通过单阶段监督-强化微调结合策略，有效提升大语言模型（LLM）推理性能。该方法利用专家演示与模型自我探索数据，借助熵感知机制平衡SFT与RL优势，避免传统两阶段方法带来的知识遗忘与效率问题。实验表明，SRFT在五项数学推理任务中平均准确率达59.1%，相较zero-RL基线提升9.0个百分点，并在分布外任务中展现更强泛化能力。相比现有方法，SRFT训练更稳定、收敛更快，同时保持输出多样性，为LLM微调提供了新思路。
来源：https://mp.weixin.qq.com/s/9dTE8dtVIO1TE0Xy3vUReQ

		自动登录	找回密码
密码			立即注册

课程导航

中科院联合美团提出SRFT方法，单阶段结合监督强化微调，推理泛化双提升