英伟达联合多机构推Fast-dLLM,实现扩散大语言模型推理速度27.6倍突破
NVIDIA联合多家机构推出Fast-dLLM,通过分块KV缓存与置信度感知并行解码,实现扩散模型推理效率的大幅提升。在LLaDA模型上,该技术将长文本生成速度提高27.6倍,精度损失小于2%,展现出卓越的性能与通用性。作为无需训练的即插即用方案,Fast-dLLM为扩散模型的实际应用提供了重要支持。来源:https://mp.weixin.qq.com/s/uR7Bk6YpPGyR8cgN5u2oBw
页:
[1]