CMU等团队推出MPK编译器，舍弃CUDA编程，用几十行代码降LLM推理延迟最高6.7倍

周大发表于 2025-6-21 14:01:35

CMU 助理教授贾志豪团队推出了 Mirage Persistent Kernel（MPK），一种可将大语言模型（LLM）转化为优化巨型内核的编译器。MPK 通过消除内核启动开销、实现跨层流水线优化及重叠计算与通信，显著降低了 LLM 推理延迟，最高可达 6.7 倍。在 A100-40GB GPU 上，Qwen3-8B 的每个 token 推理延迟从 14.5 毫秒降至 12.5 毫秒，接近理论极限。MPK 包含编译器和运行时系统，能够将计算图转化为细粒度任务图并在单个巨型内核中高效执行。用户仅需几十行 Python 代码即可完成高性能编译，无需 CUDA 编程。未来，团队计划扩展 MPK 支持下一代 GPU 架构、动态工作负载及高级调度策略。
来源：https://mp.weixin.qq.com/s/D3fYjn8YksswteQE05Ohbw

页: [1]

靠浦ai课堂's Archiver

CMU等团队推出MPK编译器，舍弃CUDA编程，用几十行代码降LLM推理延迟最高6.7倍