PD分离技术大幅提升大模型推理效率
UCSD华人团队提出预填充-解码分离技术(PD分离),显著提升大语言模型服务的有效吞吐量。该技术将预填充和解码分配到不同GPU,减少干扰并优化资源配置,在严格延迟约束下,比现有系统提升4.48倍有效产出率或实现10.2倍更严格的SLO达成率。黄仁勋在GTC 2025上也提到这一技术的重要性。实验表明,DistServe系统在聊天机器人、代码补全和摘要任务中的表现远超vLLM等现有系统。来源:https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw
页:
[1]