英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

[复制链接]
周大 发表于 2025-4-15 15:10:40 | 显示全部楼层 |阅读模式
华为推出的盘古Ultra模型,参数量仅135B,却在数学竞赛、编程等推理任务上媲美DeepSeek-R1。该模型通过纯昇腾集群训练,避免英伟达硬件依赖,并首次实现无损失尖峰的稳定训练。借助“三明治”层归一化与TinyInit初始化技术,盘古Ultra在多项基准测试中超越GPT-4o等强大模型。其训练流程分为通用、推理和退火三个阶段,并依托8192张昇腾NPU的高效并行策略,实现了超过52%的算力利用率。
来源:https://tech.ifeng.com/c/8iZPBs7RSCn

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 18:25 , Processed in 0.287291 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表