DeepSeek-R2曝担前上线！第三弹DeepGEMM 300行代码暴击专家优化内核

周大发表于 2025-2-26 13:48:23

DeepSeek发布了名为DeepGEMM的FP8计算库，支持稠密和MoE模型，专为Hopper GPU设计。该库仅用300行代码便实现了超越专家优化内核的性能，在Hopper GPU上可达1350+ FP8 TFLOPS算力。DeepGEMM采用即时编译技术，支持常规矩阵乘法及两种MoE布局，具备轻量级依赖和高效能特点。此外，原定5月初发布的DeepSeek-R2将提前推出，支持多语言推理，进一步推动AI行业发展。
来源：https://mp.weixin.qq.com/s/4aKxWIpb2-9DZKrSSAYoWg

页: [1]

靠浦ai课堂's Archiver

DeepSeek-R2曝担前上线！第三弹DeepGEMM 300行代码暴击专家优化内核