清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

周大发表于 2024-10-19 15:39:10

清华大学陈键飞团队开发出SageAttention，一种8位精度的注意力机制，用于加速大模型的推理过程。该技术通过平滑处理K矩阵、分块INT8量化Q,K矩阵以及使用FP16累加器处理P,V矩阵，实现了2倍以上的推理加速，并在视频、图像和文本生成等任务中保持了与全精度模型相当的性能。SageAttention易于集成，只需几行代码即可实现即插即用，显著提升了大型模型的推理效率。
来源：https://mp.weixin.qq.com/s/S1ZfDyg61pTXdyHiVN8SSA

页: [1]

靠浦ai课堂's Archiver

清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！