清华稀疏Attention，无需训练加速一切模型！

周大发表于 2025-3-27 14:43:00

清华大学陈键飞团队推出无需训练的稀疏Attention方法SpargeAttn，相比FlashAttention实现4-7倍加速。该技术通过预测P矩阵稀疏部分及优化GPU Warp级别算法，大幅提升计算效率。实验显示，在RTX4090上60%稀疏度可达900TOPS，较A100快4.5倍。SpargeAttn适用于语言、视频和图像生成等大模型，保持端到端精度无损，为长序列任务提供高效解决方案。
来源：https://mp.weixin.qq.com/s/uDpCOeITwsQRjC4V7LRNHw

页: [1]

靠浦ai课堂's Archiver

清华稀疏Attention，无需训练加速一切模型！