新架构TTT挑战Transformer，提升大语言模型性能

周大发表于 2024-7-9 15:50:34

斯坦福、伯克利等高校和Meta的研究团队提出了一种名为Test-Time Training（TTT）的新架构，它可能革新AI领域的语言模型处理。TTT在性能上超越了现有热门的Transformer和Mamba架构，能以线性复杂度处理大量信息，提高了长上下文处理的效率。在各种规模的大模型测试中，TTT-Linear和TTT-MLP展现出了匹敌或优于Transformer和Mamba的性能。
来源：https://mp.weixin.qq.com/s/QSw9PKB_HhSxeO7agnzBgQ

		自动登录	找回密码
密码			立即注册

课程导航

新架构TTT挑战Transformer，提升大语言模型性能