在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架
为应对大语言模型处理长文本的需求,清华大学NLP实验室联合多家机构开发了APB框架。该框架通过整合稀疏注意力机制和局部KV缓存压缩,优化跨GPU通信,解决了长文本推理中的长距离语义依赖问题。实验表明,在128K文本上,APB相比传统Flash Attention加速10倍,超越英伟达Star Attention 1.6倍。APB通过引入小Anchor block、passing block等创新设计,实现了性能与速度的平衡,适用于多种分布式设定和模型规模。来源:https://mp.weixin.qq.com/s/qyBJUxyJtIerBJDezu9ZUQ
页:
[1]