清华稀疏Attention,无需训练加速一切模型!
清华大学陈键飞团队推出无需训练的稀疏Attention方法SpargeAttn,相比FlashAttention实现4-7倍加速。该技术通过预测P矩阵稀疏部分及优化GPU Warp级别算法,大幅提升计算效率。实验显示,在RTX4090上60%稀疏度可达900TOPS,较A100快4.5倍。SpargeAttn适用于语言、视频和图像生成等大模型,保持端到端精度无损,为长序列任务提供高效解决方案。来源:https://mp.weixin.qq.com/s/uDpCOeITwsQRjC4V7LRNHw
页:
[1]