华为曝光两大黑科技!打破推理延迟魔咒,大模型从此「秒回」
华为推出FusionSpec和OptiQuant两项创新技术,大幅优化超大规模MoE模型推理性能。FusionSpec通过重塑主模型与投机模型流程,将推理延迟降至1ms;OptiQuant支持多种量化方法,有效降低资源消耗并保留模型精度。这些技术突破了LLM推理的延迟与资源瓶颈,为中国AI发展注入新动力,推动全球技术前沿进步。来源:https://mp.weixin.qq.com/s/P6MYUJf_0gEu8hbh1KVvEA
页:
[1]