周大 发表于 2024-10-20 14:45:51

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

英伟达团队推出归一化Transformer(nGPT),通过在超球面上进行表示学习,大幅提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持原有精度。实验显示,上下文越长,训练速度越快,1k上下文提高4倍,8k上下文提高20倍。nGPT在OpenWebText数据集上的验证损失减少10倍,并在下游任务中表现出色。这一突破有望加速AI模型的发展,推动通向AGI的进程。
来源:https://mp.weixin.qq.com/s/zCPuR_cj50McBeFkKgTNBA
页: [1]
查看完整版本: 英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快