蚂蚁国产GPU训练大模型细节曝光!

[复制链接]
周大 发表于 2025-3-27 14:46:29 | 显示全部楼层 |阅读模式
蚂蚁集团开源的大模型Ling展示了低成本训练的可能性,其两款MoE大模型在国产GPU上实现了与英伟达同效的训练效果。研发负责人张志强在知乎分享了训练中的关键经验,包括训练正确性对齐、Router TP bug修复以及训练稳定性的优化策略。他表示,国产加速卡的训练成本已接近甚至低于GPU,同时Loss收敛表现一致。此外,蚂蚁通过开源DLRover项目回馈社区,并澄清了外界对成本计算的误解。未来,团队计划探索FP8低精度训练及强化学习技术,进一步推动AGI的发展。
来源:https://mp.weixin.qq.com/s/pX7o-vSIPhLV1BnZ3UFikQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 05:38 , Processed in 0.286891 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表