PD分离技术大幅提升大模型推理效率

周大发表于 2025-3-19 15:52:11

UCSD华人团队提出预填充-解码分离技术（PD分离），显著提升大语言模型服务的有效吞吐量。该技术将预填充和解码分配到不同GPU，减少干扰并优化资源配置，在严格延迟约束下，比现有系统提升4.48倍有效产出率或实现10.2倍更严格的SLO达成率。黄仁勋在GTC 2025上也提到这一技术的重要性。实验表明，DistServe系统在聊天机器人、代码补全和摘要任务中的表现远超vLLM等现有系统。
来源：https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw

页: [1]

靠浦ai课堂's Archiver

PD分离技术大幅提升大模型推理效率