伊利诺伊大学团队推出RM-R1框架:通过推理链提升奖励模型可解释性与性能
伊利诺伊大学研究团队提出 RM-R1 框架,将奖励建模重构为推理任务,引入链式评估准则(CoR)机制,大幅提升奖励模型的可解释性与性能。实验显示,RM-R1 在推理密集型任务中表现优异,性能随模型规模和计算力增强而近似线性提升,同时其两阶段训练范式显著优化了数据效率与泛化能力,为奖励建模领域提供了新方向。来源:https://mp.weixin.qq.com/s/2070OPXlEUCwqjSTuFrsHA
页:
[1]