4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

周大发表于 2024-12-27 15:39:15

清华大学陈键飞团队推出4-Bit即插即用Attention（SageAttention2），相比FlashAttention2和xformers实现3-4.5倍推理加速，在视频、图像、文本生成等大模型上保持端到端精度。该方法通过Smooth K和Per-thread量化等技术克服了INT4量化挑战，并支持多种硬件。SageAttention2已开源且易于集成，为长序列模型提供了高效解决方案，适用于CogvideoX、Mochi等多个大模型，显著提升处理速度。
来源：https://mp.weixin.qq.com/s/Zl-rbVn_mqujDVrbBcCShw

页: [1]

靠浦ai课堂's Archiver

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级