周大 发表于 2025-3-19 15:52:11

PD分离技术大幅提升大模型推理效率

UCSD华人团队提出预填充-解码分离技术(PD分离),显著提升大语言模型服务的有效吞吐量。该技术将预填充和解码分配到不同GPU,减少干扰并优化资源配置,在严格延迟约束下,比现有系统提升4.48倍有效产出率或实现10.2倍更严格的SLO达成率。黄仁勋在GTC 2025上也提到这一技术的重要性。实验表明,DistServe系统在聊天机器人、代码补全和摘要任务中的表现远超vLLM等现有系统。
来源:https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw
页: [1]
查看完整版本: PD分离技术大幅提升大模型推理效率