DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

[复制链接]
周大 发表于 2025-2-19 14:18:07 | 显示全部楼层 |阅读模式
DeepSeek提出一种新的可原生训练的稀疏注意力机制NSA,以降低大模型上下文建模中的高昂计算成本。实验表明,在64k上下文处理中,NSA于解码、前向传播和反向传播速度分别最高提升11.6倍、9倍、6倍。该机制采用动态分层稀疏策略、粗粒度Token压缩及细粒度Token选择等方法,并通过硬件对齐系统与训练感知设计确保效果。研究人员用27B参数规模模型验证了其优越性,NSA不仅降低了损失值,还在多个基准测试中超越全注意力模型,特别是在长上下文和思维链推理任务中表现出色。
来源:https://mp.weixin.qq.com/s/nZgQPNWZa9eyftNKUh7W_Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 13:07 , Processed in 0.281854 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表