周大 发表于 2025-2-26 13:51:39

DeepSeek开源第三弹:V3/R1训练推理关键秘籍,核心代码仅300行

DeepSeek开源了DeepGEMM库,专注于加速深度学习中的矩阵运算。该库支持FP8通用矩阵乘法,适用于密集和混合专家模型,在Hopper架构GPU上性能达1350+ FP8 TFLOPS。其核心代码简洁(约300行),但性能优异,甚至超过专家调优的内核。通过即时编译(JIT)技术,DeepGEMM能够动态生成优化代码,适应不同硬件和矩阵大小。性能测试表明,其计算性能最高可达1358 TFLOPS,内存宽带达2668 GB/s,且加速比最高为2.7倍。此外,DeepGEMM支持多种矩阵布局,易于部署和使用。
来源:https://mp.weixin.qq.com/s/ayO-HIdLAmXIQS-pPSE6Gw
页: [1]
查看完整版本: DeepSeek开源第三弹:V3/R1训练推理关键秘籍,核心代码仅300行