靠浦ai课堂's Archiver
版块
›
靠浦ai资讯
› MInference:加速长文本处理的动态稀疏注意力技术
周大
发表于 2024-7-8 15:36:45
MInference:加速长文本处理的动态稀疏注意力技术
微软和萨里大学的研究团队提出了一项创新技术——MInference,该技术显著加速了长上下文大型语言模型的处理速度,使得在单个GPU上处理超百万token的文本速度提升10倍。MInference通过动态稀疏注意力机制减少预填充延迟,无需改动模型训练设置,且在多项任务中保持高准确性,为长文本处理开辟了新途径。
来源:https://mp.weixin.qq.com/s/aeGqsPIKnnNZEW-i02TcMw
页:
[1]
查看完整版本:
MInference:加速长文本处理的动态稀疏注意力技术