PD分离技术大幅提升大模型推理效率

[复制链接]
周大 发表于 2025-3-19 15:52:11 | 显示全部楼层 |阅读模式
UCSD华人团队提出预填充-解码分离技术(PD分离),显著提升大语言模型服务的有效吞吐量。该技术将预填充和解码分配到不同GPU,减少干扰并优化资源配置,在严格延迟约束下,比现有系统提升4.48倍有效产出率或实现10.2倍更严格的SLO达成率。黄仁勋在GTC 2025上也提到这一技术的重要性。实验表明,DistServe系统在聊天机器人、代码补全和摘要任务中的表现远超vLLM等现有系统。
来源:https://mp.weixin.qq.com/s/kdxJng0X3RT2UU8EnuxeSw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 20:46 , Processed in 0.295236 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表