仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

[复制链接]
周大 发表于 2025-1-6 15:20:45 | 显示全部楼层 |阅读模式
清华大学等机构提出PRIME(Process Reinforcement through IMplicit REwards)强化学习方法,该方法无需蒸馏数据和模仿学习,利用隐式过程奖励解决大模型强化学习中的奖励稀疏问题。研究人员仅用8张A100、耗资约一万、耗时不到10天,便训练出数学能力超过GPT-4o等模型的Eurus-2-7B-PRIME,并在美国IMO选拔考试AIME 2024上取得26.7%的准确率,相比基座模型提升了16.7%。项目开源后迅速走红海外AI社区,短期内收获近300个星标。PRIME有望成为下一代人工智能发展的重要推动力量。
来源:https://mp.weixin.qq.com/s/s-DeQCAX1gth82YkABxLLA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 03:38 , Processed in 0.301004 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表