清华NLP实验室提出RLPR技术，突破通用领域推理瓶颈，提升强化学习稳定性与性能

周大发表于 2025-6-27 13:58:18

清华大学自然语言处理实验室提出新型强化学习框架 RLPR，利用模型生成参考答案的概率作为奖励信号，解决了传统 RLVR 方法依赖人工规则验证、难以扩展至自然语言领域的问题。实验表明，RLPR 在 Qwen、Gemma、Llama 等主流模型上均能稳定提升推理性能，且奖励质量优于规则奖励，在小模型上即表现优异，相关资源已开源。
来源：https://mp.weixin.qq.com/s/B11Ef8YwOzPHZn1SXdpp7w

		自动登录	找回密码
密码			立即注册

课程导航

清华NLP实验室提出RLPR技术，突破通用领域推理瓶颈，提升强化学习稳定性与性能