华为开源Omni-Infer项目：超大规模MoE模型推理架构与加速套件全面开放

周大发表于 2025-7-1 14:43:29

华为推出并开源了专为超大规模MoE模型设计的推理加速项目Omni-Infer，涵盖推理框架与加速套件两部分。该项目兼容主流推理框架，支持EP144/EP288等多种MoE配置，并通过智能调度、负载均衡等技术显著提升推理效率。企业可借此实现低延迟、高吞吐的部署效果。社区方面，华为采取主动适配策略，联合国内外多个开源组织构建开放生态，采用透明治理机制推动多方共赢。Omni-Infer已在GitHub等平台开放源码，适用于昇腾CloudMatrix384推理卡，助力AI推理“又快又稳”。
来源：https://mp.weixin.qq.com/s/sfC5l0wYGrrs0Kfrz3ZzyA

页: [1]

靠浦ai课堂's Archiver

华为开源Omni-Infer项目：超大规模MoE模型推理架构与加速套件全面开放