伊利诺伊大学团队推出RM-R1框架：通过推理链提升奖励模型可解释性与性能

周大发表于 2025-5-31 14:28:53

伊利诺伊大学研究团队提出 RM-R1 框架，将奖励建模重构为推理任务，引入链式评估准则（CoR）机制，大幅提升奖励模型的可解释性与性能。实验显示，RM-R1 在推理密集型任务中表现优异，性能随模型规模和计算力增强而近似线性提升，同时其两阶段训练范式显著优化了数据效率与泛化能力，为奖励建模领域提供了新方向。
来源：https://mp.weixin.qq.com/s/2070OPXlEUCwqjSTuFrsHA

页: [1]

靠浦ai课堂's Archiver

伊利诺伊大学团队推出RM-R1框架：通过推理链提升奖励模型可解释性与性能