DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

周大发表于 2025-2-19 14:18:07

DeepSeek提出一种新的可原生训练的稀疏注意力机制NSA，以降低大模型上下文建模中的高昂计算成本。实验表明，在64k上下文处理中，NSA于解码、前向传播和反向传播速度分别最高提升11.6倍、9倍、6倍。该机制采用动态分层稀疏策略、粗粒度Token压缩及细粒度Token选择等方法，并通过硬件对齐系统与训练感知设计确保效果。研究人员用27B参数规模模型验证了其优越性，NSA不仅降低了损失值，还在多个基准测试中超越全注意力模型，特别是在长上下文和思维链推理任务中表现出色。
来源：https://mp.weixin.qq.com/s/nZgQPNWZa9eyftNKUh7W_Q

		自动登录	找回密码
密码			立即注册

课程导航

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本