周大 发表于 2025-3-20 21:20:32

字节新算法DAPO大幅提升大模型性能

字节与清华AIR联合实验室推出DAPO算法,使Qwen2.5-32B模型在AIME 2024基准上获50分,优于DeepSeek-R1-Zero-Qwen且训练步数减少50%。该算法由01年出生的禹棋赢主导研发,他作为字节Top Seed计划实习生,在大模型团队中负责强化学习(RL)方向研究。禹棋赢去年10月实现关键突破,推动RL技术进步。这反映了AI行业对前沿问题解决能力的重视,重塑了以经验为主的人才评价体系, curiosity与执行力成为新通行证。
来源:https://mp.weixin.qq.com/s/V3NerbwIECZoMN4IjXiVnA
页: [1]
查看完整版本: 字节新算法DAPO大幅提升大模型性能