清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!

[复制链接]
周大 发表于 2024-10-19 15:39:10 | 显示全部楼层 |阅读模式
清华大学陈键飞团队开发出SageAttention,一种8位精度的注意力机制,用于加速大模型的推理过程。该技术通过平滑处理K矩阵、分块INT8量化Q,K矩阵以及使用FP16累加器处理P,V矩阵,实现了2倍以上的推理加速,并在视频、图像和文本生成等任务中保持了与全精度模型相当的性能。SageAttention易于集成,只需几行代码即可实现即插即用,显著提升了大型模型的推理效率。
来源:https://mp.weixin.qq.com/s/S1ZfDyg61pTXdyHiVN8SSA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 23:53 , Processed in 0.291308 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表