扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
UCLA 和 Meta AI 提出新框架 d1,通过两阶段后训练增强离散扩散大语言模型(dLLM)的推理能力。该框架结合监督微调(SFT)与 diffu-GRPO 方法,解决了强化学习在非自回归模型中的应用难题。实验显示,d1 在数学和逻辑推理基准测试中显著优于基础模型及单一优化方法,尤其在长序列生成中展现出自我修正和回溯能力,为扩散模型推理能力的突破提供了新方向。来源:https://mp.weixin.qq.com/s/57onGdSBuiQfvEJpOdU_eg
页:
[1]