1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA
清华大学等机构的研究者提出了一种新的强化学习方法——PRIME,通过隐式奖励提高语言模型的推理能力。该方法在多个基准测试中表现出色,平均性能提升了16.7%,并在AMC和AIME中获得了超过20%的提升。值得注意的是,这些成果仅使用了Qwen Math 1/10的数据资源(230K SFT + 150K RL)。与现有方法相比,PRIME不仅显著提升了模型性能,还加速了训练过程。研究人员已公开所有模型和数据,为后续研究提供了宝贵资源。来源:https://mp.weixin.qq.com/s/bogt5zl7rytcz-FhNECTNg
页:
[1]