Kimi开源大模型推理架构Mooncake,提升525%吞吐量

[复制链接]
周大 发表于 2024-11-29 15:11:57 | 显示全部楼层 |阅读模式
Kimi联合清华大学等机构开源了大模型推理架构Mooncake,该架构承载了Kimi线上80%以上的流量。Mooncake采用以KVCache为中心的解耦架构,显著提升推理吞吐量,实验结果显示其在某些场景中可实现525%的吞吐量提升。目前,Mooncake已在全球GitHub上获得1.2k star,并得到AISoft、阿里云、华为存储等多家机构的支持。
来源:https://mp.weixin.qq.com/s/-0YxV77HnEEtrvxJSSujmQ

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-24 10:59 , Processed in 0.265401 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表