EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
vivo AI Lab 提出 GTA 框架,融合监督微调与强化学习,通过 Guess–Think–Answer 三阶段提升大模型在文本分类中的性能。实验表明,该方法在多个数据集上优于传统 SFT 和 RL 方法,500–1000 步内快速收敛且准确率更高,兼顾高效性与泛化能力,相关论文已入选 EMNLP 2025。
来源:https://mp.weixin.qq.com/s/dTACgW9_GAkCLS9dR0ag9Q

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 14:03 , Processed in 0.310651 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表