CMU等团队推出MPK编译器,舍弃CUDA编程,用几十行代码降LLM推理延迟最高6.7倍
CMU 助理教授贾志豪团队推出了 Mirage Persistent Kernel(MPK),一种可将大语言模型(LLM)转化为优化巨型内核的编译器。MPK 通过消除内核启动开销、实现跨层流水线优化及重叠计算与通信,显著降低了 LLM 推理延迟,最高可达 6.7 倍。在 A100-40GB GPU 上,Qwen3-8B 的每个 token 推理延迟从 14.5 毫秒降至 12.5 毫秒,接近理论极限。MPK 包含编译器和运行时系统,能够将计算图转化为细粒度任务图并在单个巨型内核中高效执行。用户仅需几十行 Python 代码即可完成高性能编译,无需 CUDA 编程。未来,团队计划扩展 MPK 支持下一代 GPU 架构、动态工作负载及高级调度策略。来源:https://mp.weixin.qq.com/s/D3fYjn8YksswteQE05Ohbw
页:
[1]