清华稀疏Attention,无需训练加速一切模型!

[复制链接]
周大 发表于 2025-3-27 14:43:00 | 显示全部楼层 |阅读模式
清华大学陈键飞团队推出无需训练的稀疏Attention方法SpargeAttn,相比FlashAttention实现4-7倍加速。该技术通过预测P矩阵稀疏部分及优化GPU Warp级别算法,大幅提升计算效率。实验显示,在RTX4090上60%稀疏度可达900TOPS,较A100快4.5倍。SpargeAttn适用于语言、视频和图像生成等大模型,保持端到端精度无损,为长序列任务提供高效解决方案。
来源:https://mp.weixin.qq.com/s/uDpCOeITwsQRjC4V7LRNHw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-8 18:16 , Processed in 0.288938 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表