DeepSeek发布FlashMLA突破H800性能瓶颈

周大发表于 2025-2-24 15:13:39

DeepSeek在开源周首日发布FlashMLA，该解码内核专为Hopper GPU设计，实现了显著的性能提升与成本降低。FlashMLA采用MLA（多头潜在注意力机制）架构，使H800达到3000GB/s内存带宽和580TFLOPS计算性能。这一创新不仅减少了显存占用至传统架构的5%-13%，还大幅降低了推理成本。GitHub上迅速获得超过1200星标，同时DeepSeek-R1在HuggingFace平台也收获了超10000个赞，成为最受关注的大模型之一。
来源：https://mp.weixin.qq.com/s/OZmMTW4JyiP4GWkzShlqAg

页: [1]

靠浦ai课堂's Archiver

DeepSeek发布FlashMLA突破H800性能瓶颈