Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍

[复制链接]
周大 发表于 2025-8-22 14:57:44 | 显示全部楼层 |阅读模式
在升级至 NVIDIA Blackwell B200 GPU 后,Cursor 团队发现 MoE 层训练效率受限。通过从零重写 MoE 内核,采用 Warp 专精、2-CTA 模式及定制量化方案,他们成功实现 MoE 层前向与反向传播提速 3.5 倍,端到端训练速度提升 1.5 倍。新方案充分利用 Blackwell 原生指令,优化内存带宽利用率,MXFP8 内核带宽达 6.2 TB/s,训练质量媲美 BF16。
来源:https://mp.weixin.qq.com/s/MQjYqz6BFGWR8X9FSiOvVA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 20:50 , Processed in 0.301058 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表