Adam的稳+Muon的快？华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境

周大发表于昨天 16:16

华为诺亚方舟实验室推出新型优化器 ROOT，通过自适应 Newton-Schulz 迭代（AdaNewton）和软阈值去噪机制，在保持 O(N) 复杂度的同时提升了大模型训练的稳定性与收敛速度。实验显示，ROOT 在 1B 模型上训练损失降至 2.5407，优于 Muon；下游任务平均得分 60.12，超越 AdamW 与 Muon；在 CIFAR-10 上准确率达 88.44%，彰显其跨领域鲁棒性与应用潜力。
来源：https://mp.weixin.qq.com/s/X7dNh8lwr0xVW7TsuO4D2g

		自动登录	找回密码
密码			立即注册

课程导航

Adam的稳+Muon的快？华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境