过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

周大发表于 2024-11-17 13:51:02

Google Research、Google DeepMind和卡内基梅隆大学的研究人员开发了一种新的过程奖励模型（PRM）和过程优势验证器（PAV），用于优化大型语言模型（LLM）在数学推理方面的能力。传统的结果奖励模型（ORM）由于奖励信号过于稀疏，导致模型难以学习，搜索效率不高。新方法通过在每一步提供反馈并预测进展，显著提高了测试时搜索和在线强化学习的准确性和计算效率。实验结果显示，使用PAV的测试时搜索准确率提升了8%，计算效率提高了1.5到5倍；在线强化学习的数据效率提高了5-6倍，准确率提升了6%。
来源：https://mp.weixin.qq.com/s/I66QlYb_DfzpyzlMQvQQqA

页: [1]

靠浦ai课堂's Archiver

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%