周大 发表于 2025-1-8 15:07:54

大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

中国电信翼支付提出的大模型推理加速方案Falcon,采用增强半自回归投机解码框架,结合Coupled Sequential Glancing Distillation(CSGD)方法和定制解码树,显著提升了大型语言模型(LLMs)推理效率。实验表明,Falcon实现了2.91-3.51倍的加速效果,已在翼支付的InsightAI平台及多个业务应用中落地,大幅降低了推理成本,为产业数字化转型提供了技术支持。
来源:https://mp.weixin.qq.com/s/QfNiSWyGThJyw2IEY5Ltvg
页: [1]
查看完整版本: 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3