清华、蚂蚁开源极速RL框架AReaL-boba

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
蚂蚁技术研究院与清华大学联合发布的 AReaL-boba 是国内首个完全开源的强化学习训练框架,解决了大规模强化学习训练复杂性和效率瓶颈问题。该框架在 7B 模型上实现数学推理分数断崖领先(AIME 2024 61.9 分),并仅用 200 条数据复现 QwQ-32B 推理效果,成本不到 200 美金。AReaL-boba 提供完整的开源数据、代码和脚本,支持从单机到分布式训练,大幅降低强化学习门槛,助力 AI 训练普惠化。
来源:https://mp.weixin.qq.com/s/Cx8QHv2TVl-0mIJzKT7BDA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 05:13 , Processed in 0.289334 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表