清华NLP实验室提出RLPR技术,突破通用领域推理瓶颈,提升强化学习稳定性与性能
清华大学自然语言处理实验室提出新型强化学习框架 RLPR,利用模型生成参考答案的概率作为奖励信号,解决了传统 RLVR 方法依赖人工规则验证、难以扩展至自然语言领域的问题。实验表明,RLPR 在 Qwen、Gemma、Llama 等主流模型上均能稳定提升推理性能,且奖励质量优于规则奖励,在小模型上即表现优异,相关资源已开源。来源:https://mp.weixin.qq.com/s/B11Ef8YwOzPHZn1SXdpp7w
页:
[1]