英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

周大发表于 2024-10-20 14:45:51

英伟达团队推出归一化Transformer（nGPT），通过在超球面上进行表示学习，大幅提升大型语言模型（LLM）的训练速度，最高可达20倍，同时保持原有精度。实验显示，上下文越长，训练速度越快，1k上下文提高4倍，8k上下文提高20倍。nGPT在OpenWebText数据集上的验证损失减少10倍，并在下游任务中表现出色。这一突破有望加速AI模型的发展，推动通向AGI的进程。
来源：https://mp.weixin.qq.com/s/zCPuR_cj50McBeFkKgTNBA

		自动登录	找回密码
密码			立即注册

课程导航

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快