周大 发表于 2025-6-27 13:43:02

AICon 直播探讨大模型 Infra 工程师实战,聚焦故障、优化及开源挑战

在AI大模型快速发展的背景下,Infra工程师面临训练中断、性能下降、并行策略不兼容等多重挑战,尤其在万卡级大规模集群中硬件故障频发,需依赖自动化运维和精准监控系统进行排查。推理部署方面,通过优化缓存策略、提升GPU利用率、采用MoE架构等方式有效降低成本。开源项目不仅考验代码能力,更需应对社区运营、用户反馈和版本管理等复杂问题。同时,异构硬件调度与GPU虚拟化技术的进步为资源高效利用提供了新路径。AICon 2025北京站将聚焦AI基础设施与生态构建,深入探讨如何打造高效的AI开发与应用环境。
来源:https://tech.ifeng.com/c/8kV4Dakioty
页: [1]
查看完整版本: AICon 直播探讨大模型 Infra 工程师实战,聚焦故障、优化及开源挑战