首个o1复现开源RL框架OpenR来了，UCL、上交等高校联合团队发布

周大发表于 2024-10-14 13:47:21

UCL、上海交大等高校联合开源首个类 o1 全链条训练框架 OpenR，集成过程奖励模型、强化学习及多种搜索框架，大幅提升模型推理能力。新数据集 MATH-APS 采用自动化生成样本，减少人工标注依赖。实验显示，OpenR 在推理任务上性能显著，有望推动推理领域开源社区发展。
来源：https://mp.weixin.qq.com/s/Dr9IzbUjiWtZT7bgr58T2g

页: [1]

靠浦ai课堂's Archiver

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联合团队发布