4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

[复制链接]
周大 发表于 2024-12-27 15:39:15 | 显示全部楼层 |阅读模式
清华大学陈键飞团队推出4-Bit即插即用Attention(SageAttention2),相比FlashAttention2和xformers实现3-4.5倍推理加速,在视频、图像、文本生成等大模型上保持端到端精度。该方法通过Smooth K和Per-thread量化等技术克服了INT4量化挑战,并支持多种硬件。SageAttention2已开源且易于集成,为长序列模型提供了高效解决方案,适用于CogvideoX、Mochi等多个大模型,显著提升处理速度。
来源:https://mp.weixin.qq.com/s/Zl-rbVn_mqujDVrbBcCShw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 12:24 , Processed in 0.308981 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表