周大 发表于 2025-7-1 14:43:29

华为开源Omni-Infer项目:超大规模MoE模型推理架构与加速套件全面开放

华为推出并开源了专为超大规模MoE模型设计的推理加速项目Omni-Infer,涵盖推理框架与加速套件两部分。该项目兼容主流推理框架,支持EP144/EP288等多种MoE配置,并通过智能调度、负载均衡等技术显著提升推理效率。企业可借此实现低延迟、高吞吐的部署效果。社区方面,华为采取主动适配策略,联合国内外多个开源组织构建开放生态,采用透明治理机制推动多方共赢。Omni-Infer已在GitHub等平台开放源码,适用于昇腾CloudMatrix384推理卡,助力AI推理“又快又稳”。
来源:https://mp.weixin.qq.com/s/sfC5l0wYGrrs0Kfrz3ZzyA
页: [1]
查看完整版本: 华为开源Omni-Infer项目:超大规模MoE模型推理架构与加速套件全面开放