Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
在升级至 NVIDIA Blackwell B200 GPU 后,Cursor 团队发现 MoE 层训练效率受限。通过从零重写 MoE 内核,采用 Warp 专精、2-CTA 模式及定制量化方案,他们成功实现 MoE 层前向与反向传播提速 3.5 倍,端到端训练速度提升 1.5 倍。新方案充分利用 Blackwell 原生指令,优化内存带宽利用率,MXFP8 内核带宽达 6.2 TB/s,训练质量媲美 BF16。来源:https://mp.weixin.qq.com/s/MQjYqz6BFGWR8X9FSiOvVA
页:
[1]