陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o

[复制链接]
周大 发表于 2025-9-28 15:23:55 | 显示全部楼层 |阅读模式
陈丹琦团队提出RLMT方法,结合RLHF与RLVR优势,通过让模型先生成思维链再由人类偏好奖励模型评分,实现高效强化学习。该方法无需SFT即可在基础模型上训练,大幅降低成本。实验显示,Qwen2.5-7B和Llama3.1-8B等小模型经RLMT优化后,在Wildbench等基准上表现超越GPT-4o、媲美Claude-3.7-Sonnet,尤其在开放性任务中展现出更强泛化能力,为大模型后训练提供了高效新路径。
来源:https://mp.weixin.qq.com/s/2BZptTgS1E7PPKHlw7XQzw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-10 03:06 , Processed in 0.295564 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表