重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
清华大学交叉信息院与蚂蚁技术研究院联合发布了全异步强化学习训练系统 AReaL-boba²,该系统以“全面开源、极速训练、深度可定制”为特色,训练速度较上一版本提升最高 2.77 倍,同时大幅优化 GPU 资源利用率。基于 Qwen3 系列模型的 8B/14B 模型在多个基准测试中达到 SOTA 水平。AReaL-boba² 提供详尽教程和文档,降低使用门槛,并支持多轮智能体强化学习(Agentic RL)。通过数据陈旧度控制和解耦近端策略优化目标等算法改进,解决了异步 RL 中的数据陈旧性和模型版本不一致问题,确保训练效果稳定。此外,项目开源了代码、数据集和 SOTA 模型权重,助力开发者快速复现和开发高性能推理模型。来源:https://mp.weixin.qq.com/s/I7si03-bVw_Uw3JXBD6VRw
页:
[1]