华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超NV H100
华为发布下一代AI数据中心架构CloudMatrix及首代产品CloudMatrix384,采用全对等互联与资源解耦设计,集成384个NPU与192个CPU,实现预填充6688 token/s/NPU、解码1943 token/s/NPU的高性能推理。其UB网络提供392GB/s带宽,结合内存池化与软件栈优化,显著提升通信效率与资源利用率,打破算力、延迟与成本间的“不可能三角”。该架构已在华为云上线,支持弹性扩缩容与低延迟部署,标志着国产AI基础设施在性能与灵活性上取得突破。来源:https://mp.weixin.qq.com/s/MmpWP77k3tyurv5t-9M2xw
页:
[1]