DeepSeek-R2曝担前上线!第三弹DeepGEMM 300行代码暴击专家优化内核
DeepSeek发布了名为DeepGEMM的FP8计算库,支持稠密和MoE模型,专为Hopper GPU设计。该库仅用300行代码便实现了超越专家优化内核的性能,在Hopper GPU上可达1350+ FP8 TFLOPS算力。DeepGEMM采用即时编译技术,支持常规矩阵乘法及两种MoE布局,具备轻量级依赖和高效能特点。此外,原定5月初发布的DeepSeek-R2将提前推出,支持多语言推理,进一步推动AI行业发展。来源:https://mp.weixin.qq.com/s/4aKxWIpb2-9DZKrSSAYoWg
页:
[1]