Meta新方法ExIt让LLM单步训练多步推理,MLE-bench性能提升22%

[复制链接]
周大 发表于 2025-9-9 14:36:59 | 显示全部楼层 |阅读模式
Meta超级实验室(MSL)提出一种名为ExIt的强化学习新方法,使大语言模型在推理时具备多步自我改进能力。该方法通过循环利用模型历史输出进行迭代训练,并引入发散机制提升输出多样性。实验表明,ExIt在MLE-bench基准测试中比现有方法GRPO提升约22%,并在任务空间探索中展现出更强的多样性。研究为提升模型泛化能力提供了新思路。
来源:https://mp.weixin.qq.com/s/MFDI0ncVJBBBRKDbCKoucw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 16:25 , Processed in 0.283327 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表