在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架

周大发表于 2025-3-12 15:30:47

为应对大语言模型处理长文本的需求，清华大学NLP实验室联合多家机构开发了APB框架。该框架通过整合稀疏注意力机制和局部KV缓存压缩，优化跨GPU通信，解决了长文本推理中的长距离语义依赖问题。实验表明，在128K文本上，APB相比传统Flash Attention加速10倍，超越英伟达Star Attention 1.6倍。APB通过引入小Anchor block、passing block等创新设计，实现了性能与速度的平衡，适用于多种分布式设定和模型规模。
来源：https://mp.weixin.qq.com/s/qyBJUxyJtIerBJDezu9ZUQ

		自动登录	找回密码
密码			立即注册

课程导航

在长文本上比Flash Attention快10倍！清华等提出APB序列并行推理框架