1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

[复制链接]
周大 发表于 2024-7-29 15:49:33 | 显示全部楼层 |阅读模式
Meta的Llama 3.1在1.6万个NVIDIA H100 GPU集群上训练时遭遇重大可靠性挑战。54天内出现419次意外故障,平均每3小时一次,其中近半数故障源于H100 GPU及HBM3内存。尽管如此,Meta开发了诊断工具,并解决了环境因素和功耗波动带来的挑战,使有效训练时间仍保持在90%以上。
来源:https://mp.weixin.qq.com/s/H_YexrAFyS071v6YQj-REg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 04:15 , Processed in 0.287593 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表