Google Research、Google DeepMind和卡内基梅隆大学的研究人员开发了一种新的过程奖励模型(PRM)和过程优势验证器(PAV),用于优化大型语言模型(LLM)在数学推理方面的能力。传统的结果奖励模型(ORM)由于奖励信号过于稀疏,导致模型难以学习,搜索效率不高。新方法通过在每一步提供反馈并预测进展,显著提高了测试时搜索和在线强化学习的准确性和计算效率。实验结果显示,使用PAV的测试时搜索准确率提升了8%,计算效率提高了1.5到5倍;在线强化学习的数据效率提高了5-6倍,准确率提升了6%。
来源:https://mp.weixin.qq.com/s/I66QlYb_DfzpyzlMQvQQqA