中科院联合美团提出SRFT方法,单阶段结合监督强化微调,推理泛化双提升
中国科学院自动化研究所联合美团提出SRFT方法,通过单阶段监督-强化微调结合策略,有效提升大语言模型(LLM)推理性能。该方法利用专家演示与模型自我探索数据,借助熵感知机制平衡SFT与RL优势,避免传统两阶段方法带来的知识遗忘与效率问题。实验表明,SRFT在五项数学推理任务中平均准确率达59.1%,相较zero-RL基线提升9.0个百分点,并在分布外任务中展现更强泛化能力。相比现有方法,SRFT训练更稳定、收敛更快,同时保持输出多样性,为LLM微调提供了新思路。来源:https://mp.weixin.qq.com/s/9dTE8dtVIO1TE0Xy3vUReQ
页:
[1]