1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

[复制链接]
周大 发表于 2025-1-7 15:25:12 | 显示全部楼层 |阅读模式
清华大学等机构的研究者提出了一种新的强化学习方法——PRIME,通过隐式奖励提高语言模型的推理能力。该方法在多个基准测试中表现出色,平均性能提升了16.7%,并在AMC和AIME中获得了超过20%的提升。值得注意的是,这些成果仅使用了Qwen Math 1/10的数据资源(230K SFT + 150K RL)。与现有方法相比,PRIME不仅显著提升了模型性能,还加速了训练过程。研究人员已公开所有模型和数据,为后续研究提供了宝贵资源。
来源:https://mp.weixin.qq.com/s/bogt5zl7rytcz-FhNECTNg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-20 21:33 , Processed in 0.294674 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表