英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

周大发表于 2025-4-15 15:10:40

华为推出的盘古Ultra模型，参数量仅135B，却在数学竞赛、编程等推理任务上媲美DeepSeek-R1。该模型通过纯昇腾集群训练，避免英伟达硬件依赖，并首次实现无损失尖峰的稳定训练。借助“三明治”层归一化与TinyInit初始化技术，盘古Ultra在多项基准测试中超越GPT-4o等强大模型。其训练流程分为通用、推理和退火三个阶段，并依托8192张昇腾NPU的高效并行策略，实现了超过52%的算力利用率。
来源：https://tech.ifeng.com/c/8iZPBs7RSCn

页: [1]

靠浦ai课堂's Archiver

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练