过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

周大发表于 2025-4-14 14:34:29

清华大学与上海AI Lab联合提出的生成式过程奖励模型GenPRM，通过将生成式思维链推理与代码验证相结合，并引入测试时扩展机制，有效提升了复杂推理任务中的模型表现。在ProcessBench基准测试中，仅1.5B参数的GenPRM通过测试时扩展超越GPT-4o，7B版本更是击败72B参数的Qwen2.5-Math-PRM-72B。此外，GenPRM仅需23K训练样本即可达到优异性能，得益于其独特的数据合成方法。该模型不仅能验证答案准确性，还能提供步骤级批评以优化策略模型输出，为大语言模型的可解释过程监督提供了新思路。
来源：https://mp.weixin.qq.com/s/P2OPxTMzB6Zp8Rb3RN86wQ

页: [1]

靠浦ai课堂's Archiver

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o