周大 发表于 2025-7-6 14:35:06

Meta提出新型三线性注意力机制,显著优化Scaling Law并提升token效率

Meta 提出了一种旋转不变型三线性注意力机制(2-simplicial Attention),可提升 Transformer 模型在 token 受限下的扩展效率。该机制基于 RoPE 泛化设计,并通过 Triton 实现。研究表明,相比传统 Transformer,2-simplicial Transformer 在相同 token 数量下具有更优的参数 scaling 指数,能在逼近自然语言不可约熵方面表现更好。实验还发现,该机制在活动参数超过 2B 的模型中开始展现优势,其 Scaling Law 的 α 斜率更陡,意味着更强的扩展潜力。这一成果可能为未来大模型架构优化提供新方向。
来源:https://mp.weixin.qq.com/s/vXtPIifdG-k3t_jdYbrBSg
页: [1]
查看完整版本: Meta提出新型三线性注意力机制,显著优化Scaling Law并提升token效率