DeepSeek稀疏注意力技术获ACL最佳论文：长文本处理提速11倍，性能反超全注意力模型

周大发表于 2025-7-31 13:27:06

在ACL 2025上，DeepSeek与北大等联合团队凭借提出的原生稀疏注意力（NSA）机制荣获最佳论文奖。该机制通过算法与硬件协同优化，将长文本处理速度提升最高达11.6倍，同时在多项基准测试中表现优于传统全注意力模型，实现效率与性能双赢。NSA支持上下文扩展至1百万tokens，或用于下一代DeepSeek模型。此外，大会还评选出三篇其他最佳论文，分别探讨了大模型对齐训练的稳定性、公平性新视角“差异感知”以及模型生成机制中的伦理问题。ACL 2025总投稿量达8360篇，创历史新高，反映出自然语言处理领域的激烈竞争与持续创新。
来源：https://mp.weixin.qq.com/s/pOlzt-lQjSFRpCUd68-0hA

页: [1]

靠浦ai课堂's Archiver

DeepSeek稀疏注意力技术获ACL最佳论文：长文本处理提速11倍，性能反超全注意力模型