4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级
清华大学陈键飞团队推出4-Bit即插即用Attention(SageAttention2),相比FlashAttention2和xformers实现3-4.5倍推理加速,在视频、图像、文本生成等大模型上保持端到端精度。该方法通过Smooth K和Per-thread量化等技术克服了INT4量化挑战,并支持多种硬件。SageAttention2已开源且易于集成,为长序列模型提供了高效解决方案,适用于CogvideoX、Mochi等多个大模型,显著提升处理速度。来源:https://mp.weixin.qq.com/s/Zl-rbVn_mqujDVrbBcCShw
页:
[1]