仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

周大发表于 2025-1-6 15:20:45

清华大学等机构提出PRIME（Process Reinforcement through IMplicit REwards）强化学习方法，该方法无需蒸馏数据和模仿学习，利用隐式过程奖励解决大模型强化学习中的奖励稀疏问题。研究人员仅用8张A100、耗资约一万、耗时不到10天，便训练出数学能力超过GPT-4o等模型的Eurus-2-7B-PRIME，并在美国IMO选拔考试AIME 2024上取得26.7%的准确率，相比基座模型提升了16.7%。项目开源后迅速走红海外AI社区，短期内收获近300个星标。PRIME有望成为下一代人工智能发展的重要推动力量。
来源：https://mp.weixin.qq.com/s/s-DeQCAX1gth82YkABxLLA

		自动登录	找回密码
密码			立即注册

课程导航

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o