DeepSeek稀疏注意力技术获ACL最佳论文:长文本处理提速11倍,性能反超全注意力模型
在ACL 2025上,DeepSeek与北大等联合团队凭借提出的原生稀疏注意力(NSA)机制荣获最佳论文奖。该机制通过算法与硬件协同优化,将长文本处理速度提升最高达11.6倍,同时在多项基准测试中表现优于传统全注意力模型,实现效率与性能双赢。NSA支持上下文扩展至1百万tokens,或用于下一代DeepSeek模型。此外,大会还评选出三篇其他最佳论文,分别探讨了大模型对齐训练的稳定性、公平性新视角“差异感知”以及模型生成机制中的伦理问题。ACL 2025总投稿量达8360篇,创历史新高,反映出自然语言处理领域的激烈竞争与持续创新。来源:https://mp.weixin.qq.com/s/pOlzt-lQjSFRpCUd68-0hA
页:
[1]