开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
上海交通大学 DENG Lab 与加州大学圣地亚哥分校联合提出 D2F,首次使开源扩散大语言模型(dLLMs)推理速度显著超过主流自回归(AR)模型。实验显示,D2F 在 GSM8K 上实现最高 2.5 倍于 LLaMA3 的吞吐量,并相比原始 dLLMs 最高达 50 倍加速。该方法通过混合架构设计,解决了 KV 缓存兼容性和块间并行问题,提供更优性能-效率权衡,为大模型推理优化开辟新路径。来源:https://mp.weixin.qq.com/s/zmZYKl0f9kdoYpO-99IQjg
页:
[1]