与其颠覆 Transformer,不如专注改良 Attention?
随着Transformer架构在AI领域的广泛应用,其局限性逐渐显现。主要问题包括二次方复杂度带来的高计算成本、KV缓存占用大量内存以及注意力分散等。这些缺陷使得业内普遍认为原始Transformer不会是通用人工智能(AGI)的最终形态。当前研究热点转向对Attention机制的优化,包括降低复杂度至线性水平、开发新型态空间模型及在线学习方法等。通过改进Attention机制,研究人员希望提升模型效率和效果,为未来更先进的AI系统铺平道路。来源:https://mp.weixin.qq.com/s/Kw0mX_Uv3fNeWegBmRnXDA
页:
[1]