Meta新方法ExIt让LLM单步训练多步推理,MLE-bench性能提升22%
Meta超级实验室(MSL)提出一种名为ExIt的强化学习新方法,使大语言模型在推理时具备多步自我改进能力。该方法通过循环利用模型历史输出进行迭代训练,并引入发散机制提升输出多样性。实验表明,ExIt在MLE-bench基准测试中比现有方法GRPO提升约22%,并在任务空间探索中展现出更强的多样性。研究为提升模型泛化能力提供了新思路。来源:https://mp.weixin.qq.com/s/MFDI0ncVJBBBRKDbCKoucw
页:
[1]