中科院联合美团提出SRFT方法,单阶段结合监督强化微调,推理泛化双提升

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
中国科学院自动化研究所联合美团提出SRFT方法,通过单阶段监督-强化微调结合策略,有效提升大语言模型(LLM)推理性能。该方法利用专家演示与模型自我探索数据,借助熵感知机制平衡SFT与RL优势,避免传统两阶段方法带来的知识遗忘与效率问题。实验表明,SRFT在五项数学推理任务中平均准确率达59.1%,相较zero-RL基线提升9.0个百分点,并在分布外任务中展现更强泛化能力。相比现有方法,SRFT训练更稳定、收敛更快,同时保持输出多样性,为LLM微调提供了新思路。
来源:https://mp.weixin.qq.com/s/9dTE8dtVIO1TE0Xy3vUReQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 18:19 , Processed in 0.269362 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表