翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文

[复制链接]
周大 发表于 2025-9-27 14:30:34 | 显示全部楼层 |阅读模式
Thinking Machines发布第二篇研究论文《Modular Manifolds》,提出将神经网络各层参数约束于Stiefel流形的新型优化框架,以解决训练中梯度不稳定等问题。作者Jeremy Bernstein设计了流形Muon算法,在CIFAR-10实验中展现出比AdamW更稳定的权重更新与略优准确性,尽管计算开销略高。研究进一步提出“模块化流形”概念,通过全局机制协调各层优化,提升整体训练稳定性。该方法若能扩展至大型语言模型,或显著改善训练效率。论文虽署名单人,实为跨学科协作成果。该公司此前还发布了关于LLM推理确定性的研究,成员背景雄厚,尚未推出产品即估值突破120亿美元,备受关注。
来源:https://mp.weixin.qq.com/s/g9gDnKKcCQUHo7sjWCJvHA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-9 23:58 , Processed in 0.284809 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表