EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

周大发表于 2025-9-22 13:41:53

vivo AI Lab 提出 GTA 框架，融合监督微调与强化学习，通过 Guess–Think–Answer 三阶段提升大模型在文本分类中的性能。实验表明，该方法在多个数据集上优于传统 SFT 和 RL 方法，500–1000 步内快速收敛且准确率更高，兼顾高效性与泛化能力，相关论文已入选 EMNLP 2025。
来源：https://mp.weixin.qq.com/s/dTACgW9_GAkCLS9dR0ag9Q

		自动登录	找回密码
密码			立即注册

课程导航

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法