周大 发表于 2025-4-14 14:34:29

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

清华大学与上海AI Lab联合提出的生成式过程奖励模型GenPRM,通过将生成式思维链推理与代码验证相结合,并引入测试时扩展机制,有效提升了复杂推理任务中的模型表现。在ProcessBench基准测试中,仅1.5B参数的GenPRM通过测试时扩展超越GPT-4o,7B版本更是击败72B参数的Qwen2.5-Math-PRM-72B。此外,GenPRM仅需23K训练样本即可达到优异性能,得益于其独特的数据合成方法。该模型不仅能验证答案准确性,还能提供步骤级批评以优化策略模型输出,为大语言模型的可解释过程监督提供了新思路。
来源:https://mp.weixin.qq.com/s/P2OPxTMzB6Zp8Rb3RN86wQ
页: [1]
查看完整版本: 过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o