EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
vivo AI Lab 提出 GTA 框架,融合监督微调与强化学习,通过 Guess–Think–Answer 三阶段提升大模型在文本分类中的性能。实验表明,该方法在多个数据集上优于传统 SFT 和 RL 方法,500–1000 步内快速收敛且准确率更高,兼顾高效性与泛化能力,相关论文已入选 EMNLP 2025。来源:https://mp.weixin.qq.com/s/dTACgW9_GAkCLS9dR0ag9Q
页:
[1]