DeepSeek稀疏注意力技术获ACL最佳论文:长文本处理提速11倍,性能反超全注意力模型

[复制链接]
周大 发表于 2025-7-31 13:27:06 | 显示全部楼层 |阅读模式
在ACL 2025上,DeepSeek与北大等联合团队凭借提出的原生稀疏注意力(NSA)机制荣获最佳论文奖。该机制通过算法与硬件协同优化,将长文本处理速度提升最高达11.6倍,同时在多项基准测试中表现优于传统全注意力模型,实现效率与性能双赢。NSA支持上下文扩展至1百万tokens,或用于下一代DeepSeek模型。此外,大会还评选出三篇其他最佳论文,分别探讨了大模型对齐训练的稳定性、公平性新视角“差异感知”以及模型生成机制中的伦理问题。ACL 2025总投稿量达8360篇,创历史新高,反映出自然语言处理领域的激烈竞争与持续创新。
来源:https://mp.weixin.qq.com/s/pOlzt-lQjSFRpCUd68-0hA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 20:16 , Processed in 0.288705 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表