周大 发表于 2024-11-21 14:21:55

Modded-NanoGPT 将 GPT-2 训练时间缩短至 5 分钟

GitHub 上的新项目 Modded-NanoGPT 将 GPT-2 训练时间从 45 分钟缩短至 5 分钟,使用了 FlexAttention、旋转嵌入等技术。项目作者 Keller Jordan 表示,尽管准确率略有下降,但新方法显著提高了训练效率。Modded-NanoGPT 使用自研的 Muon 优化器,内存使用量比 Adam 低,采样效率提高约 1.5 倍,挂钟开销小于 2%。
来源:https://mp.weixin.qq.com/s/rKGXjIu_k9N58x92RGaT0Q
页: [1]
查看完整版本: Modded-NanoGPT 将 GPT-2 训练时间缩短至 5 分钟