清华姚班校友等谷歌团队提出新框架，爆改注意力机制，三新型模型全面超越Transformer

周大发表于 2025-6-7 15:42:19

谷歌提出新架构Miras，通过「注意力偏向+保留门」机制重新定义AI模型设计。新模型Moneta、Yaad和Memora在语言建模、常识推理等任务中超越Transformer，参数减少40%，训练速度较RNN提升5-8倍。其中，Yaad常识推理准确率提升7.2%，Moneta语言建模PPL提升23%。Miras框架包含记忆架构、注意力偏向等四个设计维度，显著优化长序列任务表现。
来源：https://mp.weixin.qq.com/s/n7vUg1DumHHOKTql3stSOw

页: [1]

靠浦ai课堂's Archiver

清华姚班校友等谷歌团队提出新框架，爆改注意力机制，三新型模型全面超越Transformer