上海交大EPIC Lab提出dLLM-Cache,实现扩散语言模型最高九倍推理加速且免训练
上海交通大学EPIC Lab团队开发了dLLM-Cache,一种无需训练的高效推理缓存机制,专为加速扩散式大语言模型(dLLMs)设计。该方法通过复用稳定特征和更新剧烈变化特征,实现最高9.1倍的推理加速,同时保持生成质量无损。研究发现prompt特征长期稳定,response特征仅少量变化剧烈,为缓存策略提供了理论支持。实验表明,dLLM-Cache在LLaDA和Dream等模型上显著提升推理速度,并使dLLMs在准确率领先的情况下,推理速度首次超越自回归模型(ARMs)。来源:https://mp.weixin.qq.com/s/MMVBTI6OHE2wUKLcTNAfmQ
页:
[1]