周大 发表于 2024-12-27 15:39:15

4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

清华大学陈键飞团队推出4-Bit即插即用Attention(SageAttention2),相比FlashAttention2和xformers实现3-4.5倍推理加速,在视频、图像、文本生成等大模型上保持端到端精度。该方法通过Smooth K和Per-thread量化等技术克服了INT4量化挑战,并支持多种硬件。SageAttention2已开源且易于集成,为长序列模型提供了高效解决方案,适用于CogvideoX、Mochi等多个大模型,显著提升处理速度。
来源:https://mp.weixin.qq.com/s/Zl-rbVn_mqujDVrbBcCShw
页: [1]
查看完整版本: 4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级