Which Attention is All You Need?

[复制链接]
周大 发表于 2025-11-9 14:26:47 | 显示全部楼层 |阅读模式
随着LLM在数据与算力上遭遇扩展瓶颈,Attention机制成为算法创新焦点。尽管Transformer依赖标准Attention,但其O(N²)复杂度限制长序列性能,催生了线性与稀疏两大优化路径。线性方案如Kimi Linear通过混合架构实现最高75%的KV缓存缩减,并在百万token任务中提速6倍;稀疏方案如DeepSeek的DSA通过轻量索引与Top-k选择,在128k上下文中降低60%-70%计算成本。然而,MiniMax等团队仍回归Full Attention,显示技术路线尚未收敛,最佳设计仍在探索中。
来源:https://mp.weixin.qq.com/s/1N6ynR9Xwwg-AAknzhse4A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 04:36 , Processed in 0.255532 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表