周大 发表于 2025-5-19 13:32:18

华为昇腾推理性能全面超越英伟达Hopper

华为昇腾在超大规模MoE模型推理领域取得突破性进展,其性能全面超越英伟达Hopper架构。具体而言,CloudMatrix 384超节点和Atlas 800I A2推理服务器分别实现单卡Decode吞吐1920 Tokens/s(50ms时延)和808 Tokens/s(100ms时延)。通过“以数学补物理”理念,昇腾解决了内存压力、通信开销等挑战,并推出FusionSpec投机推理引擎和FlashComm通信方案等创新技术。此外,华为计划全面开源核心技术代码,并已发布详细技术报告,推动行业进步。
来源:https://mp.weixin.qq.com/s/UzXNIFesgBcMtfetgp2Y7Q
页: [1]
查看完整版本: 华为昇腾推理性能全面超越英伟达Hopper