周大 发表于 2024-11-29 15:11:57

Kimi开源大模型推理架构Mooncake,提升525%吞吐量

Kimi联合清华大学等机构开源了大模型推理架构Mooncake,该架构承载了Kimi线上80%以上的流量。Mooncake采用以KVCache为中心的解耦架构,显著提升推理吞吐量,实验结果显示其在某些场景中可实现525%的吞吐量提升。目前,Mooncake已在全球GitHub上获得1.2k star,并得到AISoft、阿里云、华为存储等多家机构的支持。
来源:https://mp.weixin.qq.com/s/-0YxV77HnEEtrvxJSSujmQ
页: [1]
查看完整版本: Kimi开源大模型推理架构Mooncake,提升525%吞吐量