MInference:加速长文本处理的动态稀疏注意力技术

[复制链接]
周大 发表于 2024-7-8 15:36:45 | 显示全部楼层 |阅读模式
微软和萨里大学的研究团队提出了一项创新技术——MInference,该技术显著加速了长上下文大型语言模型的处理速度,使得在单个GPU上处理超百万token的文本速度提升10倍。MInference通过动态稀疏注意力机制减少预填充延迟,无需改动模型训练设置,且在多项任务中保持高准确性,为长文本处理开辟了新途径。
来源:https://mp.weixin.qq.com/s/aeGqsPIKnnNZEW-i02TcMw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 05:07 , Processed in 0.284074 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表