Kimi开源大模型推理架构Mooncake,提升525%吞吐量
Kimi联合清华大学等机构开源了大模型推理架构Mooncake,该架构承载了Kimi线上80%以上的流量。Mooncake采用以KVCache为中心的解耦架构,显著提升推理吞吐量,实验结果显示其在某些场景中可实现525%的吞吐量提升。目前,Mooncake已在全球GitHub上获得1.2k star,并得到AISoft、阿里云、华为存储等多家机构的支持。来源:https://mp.weixin.qq.com/s/-0YxV77HnEEtrvxJSSujmQ
页:
[1]