扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

[复制链接]
周大 发表于 2025-4-20 15:16:29 | 显示全部楼层 |阅读模式
UCLA 和 Meta AI 提出新框架 d1,通过两阶段后训练增强离散扩散大语言模型(dLLM)的推理能力。该框架结合监督微调(SFT)与 diffu-GRPO 方法,解决了强化学习在非自回归模型中的应用难题。实验显示,d1 在数学和逻辑推理基准测试中显著优于基础模型及单一优化方法,尤其在长序列生成中展现出自我修正和回溯能力,为扩散模型推理能力的突破提供了新方向。
来源:https://mp.weixin.qq.com/s/57onGdSBuiQfvEJpOdU_eg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-10 11:25 , Processed in 0.269307 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表