CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
微软亚洲研究院等机构联合开发了一种名为T-MAC的技术,该技术采用基于查找表(LUT)的计算范式,可在CPU上高效执行低比特大型语言模型(LLMs)的推理,无需权重反量化,显著提升了计算速度。实验表明,在不同端侧设备上,T-MAC的性能超越了NPU,尤其是在2比特精度下,单核每秒可处理10个token,四核每秒处理28个token,远超人类平均阅读速度。来源:https://mp.weixin.qq.com/s/9gPydt8Suuhc-zS-FvqdaA
页:
[1]