周大 发表于 2025-2-26 13:48:23

DeepSeek-R2曝担前上线!第三弹DeepGEMM 300行代码暴击专家优化内核

DeepSeek发布了名为DeepGEMM的FP8计算库,支持稠密和MoE模型,专为Hopper GPU设计。该库仅用300行代码便实现了超越专家优化内核的性能,在Hopper GPU上可达1350+ FP8 TFLOPS算力。DeepGEMM采用即时编译技术,支持常规矩阵乘法及两种MoE布局,具备轻量级依赖和高效能特点。此外,原定5月初发布的DeepSeek-R2将提前推出,支持多语言推理,进一步推动AI行业发展。
来源:https://mp.weixin.qq.com/s/4aKxWIpb2-9DZKrSSAYoWg
页: [1]
查看完整版本: DeepSeek-R2曝担前上线!第三弹DeepGEMM 300行代码暴击专家优化内核