过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

[复制链接]
周大 发表于 2025-4-14 14:34:29 | 显示全部楼层 |阅读模式
清华大学与上海AI Lab联合提出的生成式过程奖励模型GenPRM,通过将生成式思维链推理与代码验证相结合,并引入测试时扩展机制,有效提升了复杂推理任务中的模型表现。在ProcessBench基准测试中,仅1.5B参数的GenPRM通过测试时扩展超越GPT-4o,7B版本更是击败72B参数的Qwen2.5-Math-PRM-72B。此外,GenPRM仅需23K训练样本即可达到优异性能,得益于其独特的数据合成方法。该模型不仅能验证答案准确性,还能提供步骤级批评以优化策略模型输出,为大语言模型的可解释过程监督提供了新思路。
来源:https://mp.weixin.qq.com/s/P2OPxTMzB6Zp8Rb3RN86wQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-26 09:36 , Processed in 0.255232 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表