英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

[复制链接]
周大 发表于 2024-10-20 14:45:51 | 显示全部楼层 |阅读模式
英伟达团队推出归一化Transformer(nGPT),通过在超球面上进行表示学习,大幅提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持原有精度。实验显示,上下文越长,训练速度越快,1k上下文提高4倍,8k上下文提高20倍。nGPT在OpenWebText数据集上的验证损失减少10倍,并在下游任务中表现出色。这一突破有望加速AI模型的发展,推动通向AGI的进程。
来源:https://mp.weixin.qq.com/s/zCPuR_cj50McBeFkKgTNBA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 20:56 , Processed in 0.280144 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表