微软联合清华北大推出奖励推理模型RRM,可动态分配计算资源提升AI任务评估效果
微软研究院与清华大学、北京大学合作推出奖励推理模型(RRMs),通过“思维链”推理动态分配计算资源,解决现有奖励模型在复杂任务中评估效果不佳的问题。RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务。测试表明,RRM-32B 在 RewardBench 和 PandaLM Test 中达到 98.6% 的推理准确率,显著优于传统标量奖励模型。此外,RRMs 支持多响应评估,结合 ELO 评分和多数投票机制提升资源利用效率,为强化学习提供了高效解决方案。来源:https://tech.ifeng.com/c/8jhGnaPljez
页:
[1]