CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源

周大发表于 2024-8-13 15:21:56

微软亚洲研究院等机构联合开发了一种名为T-MAC的技术，该技术采用基于查找表（LUT）的计算范式，可在CPU上高效执行低比特大型语言模型（LLMs）的推理，无需权重反量化，显著提升了计算速度。实验表明，在不同端侧设备上，T-MAC的性能超越了NPU，尤其是在2比特精度下，单核每秒可处理10个token，四核每秒处理28个token，远超人类平均阅读速度。
来源：https://mp.weixin.qq.com/s/9gPydt8Suuhc-zS-FvqdaA

页: [1]

靠浦ai课堂's Archiver

CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源