Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境

[复制链接]
周大 发表于 昨天 16:16 | 显示全部楼层 |阅读模式
华为诺亚方舟实验室推出新型优化器 ROOT,通过自适应 Newton-Schulz 迭代(AdaNewton)和软阈值去噪机制,在保持 O(N) 复杂度的同时提升了大模型训练的稳定性与收敛速度。实验显示,ROOT 在 1B 模型上训练损失降至 2.5407,优于 Muon;下游任务平均得分 60.12,超越 AdamW 与 Muon;在 CIFAR-10 上准确率达 88.44%,彰显其跨领域鲁棒性与应用潜力。
来源:https://mp.weixin.qq.com/s/X7dNh8lwr0xVW7TsuO4D2g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 02:53 , Processed in 0.259836 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表