过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

[复制链接]
周大 发表于 2024-11-17 13:51:02 | 显示全部楼层 |阅读模式
Google Research、Google DeepMind和卡内基梅隆大学的研究人员开发了一种新的过程奖励模型(PRM)和过程优势验证器(PAV),用于优化大型语言模型(LLM)在数学推理方面的能力。传统的结果奖励模型(ORM)由于奖励信号过于稀疏,导致模型难以学习,搜索效率不高。新方法通过在每一步提供反馈并预测进展,显著提高了测试时搜索和在线强化学习的准确性和计算效率。实验结果显示,使用PAV的测试时搜索准确率提升了8%,计算效率提高了1.5到5倍;在线强化学习的数据效率提高了5-6倍,准确率提升了6%。
来源:https://mp.weixin.qq.com/s/I66QlYb_DfzpyzlMQvQQqA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-26 17:31 , Processed in 0.299328 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表