字节新算法DAPO大幅提升大模型性能

周大发表于 2025-3-20 21:20:32

字节与清华AIR联合实验室推出DAPO算法，使Qwen2.5-32B模型在AIME 2024基准上获50分，优于DeepSeek-R1-Zero-Qwen且训练步数减少50%。该算法由01年出生的禹棋赢主导研发，他作为字节Top Seed计划实习生，在大模型团队中负责强化学习（RL）方向研究。禹棋赢去年10月实现关键突破，推动RL技术进步。这反映了AI行业对前沿问题解决能力的重视，重塑了以经验为主的人才评价体系， curiosity与执行力成为新通行证。
来源：https://mp.weixin.qq.com/s/V3NerbwIECZoMN4IjXiVnA

页: [1]

靠浦ai课堂's Archiver

字节新算法DAPO大幅提升大模型性能