扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

周大发表于 2025-4-20 15:16:29

UCLA 和 Meta AI 提出新框架 d1，通过两阶段后训练增强离散扩散大语言模型（dLLM）的推理能力。该框架结合监督微调（SFT）与 diffu-GRPO 方法，解决了强化学习在非自回归模型中的应用难题。实验显示，d1 在数学和逻辑推理基准测试中显著优于基础模型及单一优化方法，尤其在长序列生成中展现出自我修正和回溯能力，为扩散模型推理能力的突破提供了新方向。
来源：https://mp.weixin.qq.com/s/57onGdSBuiQfvEJpOdU_eg

		自动登录	找回密码
密码			立即注册

课程导航

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源