周大 发表于 2025-9-7 14:31:20

斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出

斯坦福大学研究系统评估了 11 种深度学习优化器在语言模型预训练中的表现,发现尽管 AdamW 长期主导该领域,矩阵型优化器(如 Muon、Soap、Kron)在特定条件下可提供 30–40% 的训练加速。研究指出,不公平的超参数调优和测试规模不足常导致加速效果被高估,且短期评估具有误导性。在更大模型(最高 12 亿参数)和不同数据–模型比例下的测试表明,矩阵型优化器表现更稳定,其中 Soap 在高数据比例下优于 Muon。研究强调独立调优和完整训练周期评估的重要性,为未来优化器选择提供了实证依据。
来源:https://mp.weixin.qq.com/s/zC9waUxOwPT-m6QN-8IPuA
页: [1]
查看完整版本: 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出