斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出

[复制链接]
周大 发表于 2025-9-7 14:31:20 | 显示全部楼层 |阅读模式
斯坦福大学研究系统评估了 11 种深度学习优化器在语言模型预训练中的表现,发现尽管 AdamW 长期主导该领域,矩阵型优化器(如 Muon、Soap、Kron)在特定条件下可提供 30–40% 的训练加速。研究指出,不公平的超参数调优和测试规模不足常导致加速效果被高估,且短期评估具有误导性。在更大模型(最高 12 亿参数)和不同数据–模型比例下的测试表明,矩阵型优化器表现更稳定,其中 Soap 在高数据比例下优于 Muon。研究强调独立调优和完整训练周期评估的重要性,为未来优化器选择提供了实证依据。
来源:https://mp.weixin.qq.com/s/zC9waUxOwPT-m6QN-8IPuA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 16:21 , Processed in 0.292354 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表