7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?
香港大学与华为联合发布的Dream 7B模型,打破了语言生成仅依赖自回归模型的传统印象。作为开源扩散语言模型的新标杆,Dream 7B在通用能力、数学推理及编程任务上表现卓越,甚至在部分场景超越参数量更大的Deepseek V3 671B。该模型通过独特的AR初始化与上下文自适应噪声重排技术优化训练,并展现出强大的规划能力和推理灵活性。尽管扩散模型未来潜力尚待验证,但其独特优势已引发广泛关注。来源:https://mp.weixin.qq.com/s/CVssj4w-UPXodjIO640_Ww
页:
[1]