DeepSeek与月之暗面再“撞车”:注意力机制新突破

[复制链接]
周大 发表于 2025-2-19 14:37:19 | 显示全部楼层 |阅读模式
2月18日,DeepSeek和月之暗面几乎同时发布论文,挑战Transformer架构核心的注意力机制。DeepSeek提出的NSA架构通过语义压缩等手段,使处理64k标记序列速度提高11.6倍;而月之暗面的MoBA架构则强调灵活性,在1M token测试中比全注意力快6.5倍。两家公司的技术派明星创始人梁文锋、杨植麟分别参与研究。这是继R1与K1.5后两公司再次“撞车”,均指向强化学习和稀疏注意力的发展方向。值得注意的是,月之暗面选择此刻开源MoBA,或将被放在DeepSeek的“阴影”里讨论,但有助于人们更好理解相关技术发展。
来源:https://tech.ifeng.com/c/8h6COdqmVZt

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-2 21:46 , Processed in 0.270806 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表