首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

[复制链接]
周大 发表于 2024-10-14 13:47:21 | 显示全部楼层 |阅读模式
UCL、上海交大等高校联合开源首个类 o1 全链条训练框架 OpenR,集成过程奖励模型、强化学习及多种搜索框架,大幅提升模型推理能力。新数据集 MATH-APS 采用自动化生成样本,减少人工标注依赖。实验显示,OpenR 在推理任务上性能显著,有望推动推理领域开源社区发展。
来源:https://mp.weixin.qq.com/s/Dr9IzbUjiWtZT7bgr58T2g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 02:35 , Processed in 0.304941 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表