Cursor为Blackwell从零构建MXFP8内核，MoE层提速3.5倍，端到端训练提速1.5倍

周大发表于 2025-8-22 14:57:44

在升级至 NVIDIA Blackwell B200 GPU 后，Cursor 团队发现 MoE 层训练效率受限。通过从零重写 MoE 内核，采用 Warp 专精、2-CTA 模式及定制量化方案，他们成功实现 MoE 层前向与反向传播提速 3.5 倍，端到端训练速度提升 1.5 倍。新方案充分利用 Blackwell 原生指令，优化内存带宽利用率，MXFP8 内核带宽达 6.2 TB/s，训练质量媲美 BF16。
来源：https://mp.weixin.qq.com/s/MQjYqz6BFGWR8X9FSiOvVA

页: [1]

靠浦ai课堂's Archiver

Cursor为Blackwell从零构建MXFP8内核，MoE层提速3.5倍，端到端训练提速1.5倍