DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发
DeepSeek在开源周第四天发布了三项优化并行策略的技术。DualPipe作为双向流水线并行算法,能完全重叠前向和后向计算-通信阶段,减少“流水线气泡”,提高硬件利用率;EPLB通过复制高负载专家并智能分配到不同GPU上,解决MoE模型负载不平衡问题;Profiling Data提供性能分析数据以展示前两者的实际应用效果。这些技术发布后迅速获得关注。来源:https://mp.weixin.qq.com/s/GXIvj1omweDu3_DZjo6sVg
页:
[1]