周大 发表于 2025-4-15 15:10:40

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

华为推出的盘古Ultra模型,参数量仅135B,却在数学竞赛、编程等推理任务上媲美DeepSeek-R1。该模型通过纯昇腾集群训练,避免英伟达硬件依赖,并首次实现无损失尖峰的稳定训练。借助“三明治”层归一化与TinyInit初始化技术,盘古Ultra在多项基准测试中超越GPT-4o等强大模型。其训练流程分为通用、推理和退火三个阶段,并依托8192张昇腾NPU的高效并行策略,实现了超过52%的算力利用率。
来源:https://tech.ifeng.com/c/8iZPBs7RSCn
页: [1]
查看完整版本: 英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练