DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek提出一种新的可原生训练的稀疏注意力机制NSA,以降低大模型上下文建模中的高昂计算成本。实验表明,在64k上下文处理中,NSA于解码、前向传播和反向传播速度分别最高提升11.6倍、9倍、6倍。该机制采用动态分层稀疏策略、粗粒度Token压缩及细粒度Token选择等方法,并通过硬件对齐系统与训练感知设计确保效果。研究人员用27B参数规模模型验证了其优越性,NSA不仅降低了损失值,还在多个基准测试中超越全注意力模型,特别是在长上下文和思维链推理任务中表现出色。来源:https://mp.weixin.qq.com/s/nZgQPNWZa9eyftNKUh7W_Q
页:
[1]