周大 发表于 2025-5-30 14:47:11

英伟达联合多机构推Fast-dLLM,实现扩散大语言模型推理速度27.6倍突破

NVIDIA联合多家机构推出Fast-dLLM,通过分块KV缓存与置信度感知并行解码,实现扩散模型推理效率的大幅提升。在LLaDA模型上,该技术将长文本生成速度提高27.6倍,精度损失小于2%,展现出卓越的性能与通用性。作为无需训练的即插即用方案,Fast-dLLM为扩散模型的实际应用提供了重要支持。
来源:https://mp.weixin.qq.com/s/uR7Bk6YpPGyR8cgN5u2oBw
页: [1]
查看完整版本: 英伟达联合多机构推Fast-dLLM,实现扩散大语言模型推理速度27.6倍突破