华为昇腾推理性能全面超越英伟达Hopper

周大发表于 2025-5-19 13:32:18

华为昇腾在超大规模MoE模型推理领域取得突破性进展，其性能全面超越英伟达Hopper架构。具体而言，CloudMatrix 384超节点和Atlas 800I A2推理服务器分别实现单卡Decode吞吐1920 Tokens/s（50ms时延）和808 Tokens/s（100ms时延）。通过“以数学补物理”理念，昇腾解决了内存压力、通信开销等挑战，并推出FusionSpec投机推理引擎和FlashComm通信方案等创新技术。此外，华为计划全面开源核心技术代码，并已发布详细技术报告，推动行业进步。
来源：https://mp.weixin.qq.com/s/UzXNIFesgBcMtfetgp2Y7Q

		自动登录	找回密码
密码			立即注册

课程导航

华为昇腾推理性能全面超越英伟达Hopper