周大 发表于 2025-2-19 14:37:19

DeepSeek与月之暗面再“撞车”:注意力机制新突破

2月18日,DeepSeek和月之暗面几乎同时发布论文,挑战Transformer架构核心的注意力机制。DeepSeek提出的NSA架构通过语义压缩等手段,使处理64k标记序列速度提高11.6倍;而月之暗面的MoBA架构则强调灵活性,在1M token测试中比全注意力快6.5倍。两家公司的技术派明星创始人梁文锋、杨植麟分别参与研究。这是继R1与K1.5后两公司再次“撞车”,均指向强化学习和稀疏注意力的发展方向。值得注意的是,月之暗面选择此刻开源MoBA,或将被放在DeepSeek的“阴影”里讨论,但有助于人们更好理解相关技术发展。
来源:https://tech.ifeng.com/c/8h6COdqmVZt
页: [1]
查看完整版本: DeepSeek与月之暗面再“撞车”:注意力机制新突破