把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

[复制链接]
周大 发表于 2024-12-27 15:49:15 | 显示全部楼层 |阅读模式
来自CMU、华盛顿大学和Meta AI的研究团队提出MagicPIG系统,利用CPU上的局部敏感哈希(LSH)采样技术,解决了GPU内存容量限制的问题。该系统在各种情况下将解码吞吐量提高了1.76~4.99倍,并在检索和推理任务中实现了更高的下游准确率。MagicPIG的主要创新点在于采用基于采样/估计的方法,而非传统的TopK搜索方式,从而提升了推理质量和效率。此外,研究还将注意力计算和哈希表卸载到CPU上,探索了异构计算的可能性,有望降低实际模型部署成本。
来源:https://mp.weixin.qq.com/s/DVbNDPyFuH3FJjpKUmwXmw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 11:11 , Processed in 0.295161 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表