把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

周大发表于 2024-12-27 15:49:15

来自CMU、华盛顿大学和Meta AI的研究团队提出MagicPIG系统，利用CPU上的局部敏感哈希（LSH）采样技术，解决了GPU内存容量限制的问题。该系统在各种情况下将解码吞吐量提高了1.76~4.99倍，并在检索和推理任务中实现了更高的下游准确率。MagicPIG的主要创新点在于采用基于采样/估计的方法，而非传统的TopK搜索方式，从而提升了推理质量和效率。此外，研究还将注意力计算和哈希表卸载到CPU上，探索了异构计算的可能性，有望降低实际模型部署成本。
来源：https://mp.weixin.qq.com/s/DVbNDPyFuH3FJjpKUmwXmw

页: [1]

靠浦ai课堂's Archiver

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍