苹果推出DiffuCoder：改进GRPO算法提升扩散语言模型代码生成能力

周大发表于 2025-6-27 14:00:22

苹果发布名为DiffuCoder的扩散语言模型（dLLM），用于代码生成任务。该模型基于掩码扩散机制，具备并行优化能力，性能可比肩主流自回归模型。研究团队通过引入AR-ness指标分析dLLM解码模式，发现其在代码生成中具有非顺序特性，并提出新型强化学习算法coupled-GRPO，有效提升训练效率与生成质量。该成果为dLLM在代码生成等领域的实际应用提供了新思路。
来源：https://mp.weixin.qq.com/s/akWoBx1F8sEvi_IxMQpJbg

页: [1]

靠浦ai课堂's Archiver

苹果推出DiffuCoder：改进GRPO算法提升扩散语言模型代码生成能力