HybridFlow:提升大模型 RL 训练效率的新框架
字节跳动豆包大模型团队与香港大学联合开发的 HybridFlow 是一个灵活且高效的 RL/RLHF 框架。该框架采用混合编程模型,结合单控制器的灵活性和多控制器的高效性,显著提升训练吞吐量,降低开发和维护复杂度。实验结果显示,HybridFlow 在运行各种 RL 算法时,吞吐量相较 SOTA 基线提升了 1.5-20 倍,支持多种分布式并行框架,适应不同模型规模的计算需求。来源:https://mp.weixin.qq.com/s/LGIsYH59mzMsIADaJ86buA
页:
[1]