7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

[复制链接]
周大 发表于 2025-4-5 14:50:15 | 显示全部楼层 |阅读模式
香港大学与华为联合发布的Dream 7B模型,打破了语言生成仅依赖自回归模型的传统印象。作为开源扩散语言模型的新标杆,Dream 7B在通用能力、数学推理及编程任务上表现卓越,甚至在部分场景超越参数量更大的Deepseek V3 671B。该模型通过独特的AR初始化与上下文自适应噪声重排技术优化训练,并展现出强大的规划能力和推理灵活性。尽管扩散模型未来潜力尚待验证,但其独特优势已引发广泛关注。
来源:https://mp.weixin.qq.com/s/CVssj4w-UPXodjIO640_Ww

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 21:27 , Processed in 0.278197 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表