7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

周大发表于 2025-4-5 14:50:15

香港大学与华为联合发布的Dream 7B模型，打破了语言生成仅依赖自回归模型的传统印象。作为开源扩散语言模型的新标杆，Dream 7B在通用能力、数学推理及编程任务上表现卓越，甚至在部分场景超越参数量更大的Deepseek V3 671B。该模型通过独特的AR初始化与上下文自适应噪声重排技术优化训练，并展现出强大的规划能力和推理灵活性。尽管扩散模型未来潜力尚待验证，但其独特优势已引发广泛关注。
来源：https://mp.weixin.qq.com/s/CVssj4w-UPXodjIO640_Ww

		自动登录	找回密码
密码			立即注册

课程导航

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？