DeepSeek-R2曝担前上线!第三弹DeepGEMM 300行代码暴击专家优化内核

[复制链接]
周大 发表于 2025-2-26 13:48:23 | 显示全部楼层 |阅读模式
DeepSeek发布了名为DeepGEMM的FP8计算库,支持稠密和MoE模型,专为Hopper GPU设计。该库仅用300行代码便实现了超越专家优化内核的性能,在Hopper GPU上可达1350+ FP8 TFLOPS算力。DeepGEMM采用即时编译技术,支持常规矩阵乘法及两种MoE布局,具备轻量级依赖和高效能特点。此外,原定5月初发布的DeepSeek-R2将提前推出,支持多语言推理,进一步推动AI行业发展。
来源:https://mp.weixin.qq.com/s/4aKxWIpb2-9DZKrSSAYoWg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-16 14:11 , Processed in 0.281566 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表