Kimi开源大模型推理架构Mooncake，提升525%吞吐量

周大发表于 2024-11-29 15:11:57

Kimi联合清华大学等机构开源了大模型推理架构Mooncake，该架构承载了Kimi线上80%以上的流量。Mooncake采用以KVCache为中心的解耦架构，显著提升推理吞吐量，实验结果显示其在某些场景中可实现525%的吞吐量提升。目前，Mooncake已在全球GitHub上获得1.2k star，并得到AISoft、阿里云、华为存储等多家机构的支持。
来源：https://mp.weixin.qq.com/s/-0YxV77HnEEtrvxJSSujmQ

页: [1]

靠浦ai课堂's Archiver

Kimi开源大模型推理架构Mooncake，提升525%吞吐量