周大 发表于 2024-12-27 15:49:15

把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍

来自CMU、华盛顿大学和Meta AI的研究团队提出MagicPIG系统,利用CPU上的局部敏感哈希(LSH)采样技术,解决了GPU内存容量限制的问题。该系统在各种情况下将解码吞吐量提高了1.76~4.99倍,并在检索和推理任务中实现了更高的下游准确率。MagicPIG的主要创新点在于采用基于采样/估计的方法,而非传统的TopK搜索方式,从而提升了推理质量和效率。此外,研究还将注意力计算和哈希表卸载到CPU上,探索了异构计算的可能性,有望降低实际模型部署成本。
来源:https://mp.weixin.qq.com/s/DVbNDPyFuH3FJjpKUmwXmw
页: [1]
查看完整版本: 把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍