华为曝光两大黑科技！打破推理延迟魔咒，大模型从此「秒回」

周大发表于 2025-5-21 14:07:23

华为推出FusionSpec和OptiQuant两项创新技术，大幅优化超大规模MoE模型推理性能。FusionSpec通过重塑主模型与投机模型流程，将推理延迟降至1ms；OptiQuant支持多种量化方法，有效降低资源消耗并保留模型精度。这些技术突破了LLM推理的延迟与资源瓶颈，为中国AI发展注入新动力，推动全球技术前沿进步。
来源：https://mp.weixin.qq.com/s/P6MYUJf_0gEu8hbh1KVvEA

页: [1]

靠浦ai课堂's Archiver

华为曝光两大黑科技！打破推理延迟魔咒，大模型从此「秒回」