周大 发表于 2024-11-17 13:51:02

过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

Google Research、Google DeepMind和卡内基梅隆大学的研究人员开发了一种新的过程奖励模型(PRM)和过程优势验证器(PAV),用于优化大型语言模型(LLM)在数学推理方面的能力。传统的结果奖励模型(ORM)由于奖励信号过于稀疏,导致模型难以学习,搜索效率不高。新方法通过在每一步提供反馈并预测进展,显著提高了测试时搜索和在线强化学习的准确性和计算效率。实验结果显示,使用PAV的测试时搜索准确率提升了8%,计算效率提高了1.5到5倍;在线强化学习的数据效率提高了5-6倍,准确率提升了6%。
来源:https://mp.weixin.qq.com/s/I66QlYb_DfzpyzlMQvQQqA
页: [1]
查看完整版本: 过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%