清华姚班校友等谷歌团队提出新框架,爆改注意力机制,三新型模型全面超越Transformer
谷歌提出新架构Miras,通过「注意力偏向+保留门」机制重新定义AI模型设计。新模型Moneta、Yaad和Memora在语言建模、常识推理等任务中超越Transformer,参数减少40%,训练速度较RNN提升5-8倍。其中,Yaad常识推理准确率提升7.2%,Moneta语言建模PPL提升23%。Miras框架包含记忆架构、注意力偏向等四个设计维度,显著优化长序列任务表现。来源:https://mp.weixin.qq.com/s/n7vUg1DumHHOKTql3stSOw
页:
[1]