周大 发表于 2024-10-19 15:39:10

清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!

清华大学陈键飞团队开发出SageAttention,一种8位精度的注意力机制,用于加速大模型的推理过程。该技术通过平滑处理K矩阵、分块INT8量化Q,K矩阵以及使用FP16累加器处理P,V矩阵,实现了2倍以上的推理加速,并在视频、图像和文本生成等任务中保持了与全精度模型相当的性能。SageAttention易于集成,只需几行代码即可实现即插即用,显著提升了大型模型的推理效率。
来源:https://mp.weixin.qq.com/s/S1ZfDyg61pTXdyHiVN8SSA
页: [1]
查看完整版本: 清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!