CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源

[复制链接]
周大 发表于 2024-8-13 15:21:56 | 显示全部楼层 |阅读模式
微软亚洲研究院等机构联合开发了一种名为T-MAC的技术,该技术采用基于查找表(LUT)的计算范式,可在CPU上高效执行低比特大型语言模型(LLMs)的推理,无需权重反量化,显著提升了计算速度。实验表明,在不同端侧设备上,T-MAC的性能超越了NPU,尤其是在2比特精度下,单核每秒可处理10个token,四核每秒处理28个token,远超人类平均阅读速度。
来源:https://mp.weixin.qq.com/s/9gPydt8Suuhc-zS-FvqdaA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 17:35 , Processed in 0.278199 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表