斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

周大发表于 2025-9-7 14:31:20

斯坦福大学研究系统评估了 11 种深度学习优化器在语言模型预训练中的表现，发现尽管 AdamW 长期主导该领域，矩阵型优化器（如 Muon、Soap、Kron）在特定条件下可提供 30–40% 的训练加速。研究指出，不公平的超参数调优和测试规模不足常导致加速效果被高估，且短期评估具有误导性。在更大模型（最高 12 亿参数）和不同数据–模型比例下的测试表明，矩阵型优化器表现更稳定，其中 Soap 在高数据比例下优于 Muon。研究强调独立调优和完整训练周期评估的重要性，为未来优化器选择提供了实证依据。
来源：https://mp.weixin.qq.com/s/zC9waUxOwPT-m6QN-8IPuA

		自动登录	找回密码
密码			立即注册

课程导航

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出