Modded-NanoGPT 将 GPT-2 训练时间缩短至 5 分钟

[复制链接]
周大 发表于 2024-11-21 14:21:55 | 显示全部楼层 |阅读模式
GitHub 上的新项目 Modded-NanoGPT 将 GPT-2 训练时间从 45 分钟缩短至 5 分钟,使用了 FlexAttention、旋转嵌入等技术。项目作者 Keller Jordan 表示,尽管准确率略有下降,但新方法显著提高了训练效率。Modded-NanoGPT 使用自研的 Muon 优化器,内存使用量比 Adam 低,采样效率提高约 1.5 倍,挂钟开销小于 2%。
来源:https://mp.weixin.qq.com/s/rKGXjIu_k9N58x92RGaT0Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-26 09:24 , Processed in 0.291898 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表