MEGALODON打破Transformer上下文限制

周大发表于 2024-4-18 10:40:37

Meta发布了新技术MEGALODON，能扩展Transformer模型到无限长输入，提高大规模预训练效率和下游任务准确性，受到广泛关注。MEGALODON基于复杂神经架构，包括CEMA、时间步归一化、归一化注意力及预归一化残差配置等组件，在长上下文序列建模方面展现出优越性能。
来源：https://mp.weixin.qq.com/s/VML5hExo5iPsyEavxzIZSA

页: [1]

靠浦ai课堂's Archiver

MEGALODON打破Transformer上下文限制