周大 发表于 6 天前

集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

随着AI模型规模持续扩大,国内外科技企业加速建设万卡级以上智算集群,面对高成本与高故障风险,提升算力利用率和系统稳定性成为关键。在此背景下,多家机构联合推出高效、可靠、可视的集合通信库VCCL。实测表明,其DPDK-like P2P调度使算力利用率提升2%-6%,Primary-backup QP机制降低故障率超50%,Flow Telemetry实现微秒级流量监控,显著增强大模型训练的连续性与可维护性,标志着我国在AI底层通信技术领域取得重要进展。
来源:https://mp.weixin.qq.com/s/_Tb5FGApGrAl7_Wjym1Ejg
页: [1]
查看完整版本: 集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源