Keller Jordan凭一篇博客提出Muon优化器入职OpenAI,其能大幅提升神经网络训练速度
Keller Jordan 凭借一篇博客《Muon: An optimizer for hidden layers in neural networks》加入 OpenAI,展示了学术影响力的多元化趋势。Muon 是一种新型优化器,通过 Newton-Schulz 迭代实现矩阵正交化,显著提升了神经网络的训练速度,同时保持模型准确度。该优化器在多个任务中表现优异,例如将 CIFAR-10 训练时间缩短至 2.6 秒,并刷新了 NanoGPT 速通记录(2.979 分钟)。此外,Muon 的运行时开销低于 1%,适配多种规模的语言模型训练任务。尽管 Muon 尚未完全解决大规模训练及微调问题,但已有研究团队对其进行了改进并发表了系统性论文。这篇博客还批评了当前优化研究中的基线调优不足问题,建议通过竞争性任务验证新方法的有效性,推动更高效的科研发展。来源:https://mp.weixin.qq.com/s/Ijez32vojwSuyJkycKJQ9g
页:
[1]