周大 发表于 2024-4-18 10:40:37

MEGALODON打破Transformer上下文限制

Meta发布了新技术MEGALODON,能扩展Transformer模型到无限长输入,提高大规模预训练效率和下游任务准确性,受到广泛关注。MEGALODON基于复杂神经架构,包括CEMA、时间步归一化、归一化注意力及预归一化残差配置等组件,在长上下文序列建模方面展现出优越性能。
来源:https://mp.weixin.qq.com/s/VML5hExo5iPsyEavxzIZSA
页: [1]
查看完整版本: MEGALODON打破Transformer上下文限制