在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

[复制链接]
周大 发表于 2025-3-12 15:30:47 | 显示全部楼层 |阅读模式
为应对大语言模型处理长文本的需求,清华大学NLP实验室联合多家机构开发了APB框架。该框架通过整合稀疏注意力机制和局部KV缓存压缩,优化跨GPU通信,解决了长文本推理中的长距离语义依赖问题。实验表明,在128K文本上,APB相比传统Flash Attention加速10倍,超越英伟达Star Attention 1.6倍。APB通过引入小Anchor block、passing block等创新设计,实现了性能与速度的平衡,适用于多种分布式设定和模型规模。
来源:https://mp.weixin.qq.com/s/qyBJUxyJtIerBJDezu9ZUQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-7 12:52 , Processed in 0.293149 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表