清华NLP实验室提出RLPR技术,突破通用领域推理瓶颈,提升强化学习稳定性与性能

[复制链接]
周大 发表于 2025-6-27 13:58:18 | 显示全部楼层 |阅读模式
清华大学自然语言处理实验室提出新型强化学习框架 RLPR,利用模型生成参考答案的概率作为奖励信号,解决了传统 RLVR 方法依赖人工规则验证、难以扩展至自然语言领域的问题。实验表明,RLPR 在 Qwen、Gemma、Llama 等主流模型上均能稳定提升推理性能,且奖励质量优于规则奖励,在小模型上即表现优异,相关资源已开源。
来源:https://mp.weixin.qq.com/s/B11Ef8YwOzPHZn1SXdpp7w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-6 03:35 , Processed in 0.268306 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表