Meta提出新型三线性注意力机制,显著优化Scaling Law并提升token效率

[复制链接]
周大 发表于 2025-7-6 14:35:06 | 显示全部楼层 |阅读模式
Meta 提出了一种旋转不变型三线性注意力机制(2-simplicial Attention),可提升 Transformer 模型在 token 受限下的扩展效率。该机制基于 RoPE 泛化设计,并通过 Triton 实现。研究表明,相比传统 Transformer,2-simplicial Transformer 在相同 token 数量下具有更优的参数 scaling 指数,能在逼近自然语言不可约熵方面表现更好。实验还发现,该机制在活动参数超过 2B 的模型中开始展现优势,其 Scaling Law 的 α 斜率更陡,意味着更强的扩展潜力。这一成果可能为未来大模型架构优化提供新方向。
来源:https://mp.weixin.qq.com/s/vXtPIifdG-k3t_jdYbrBSg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 09:20 , Processed in 0.292800 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表