字节新算法DAPO大幅提升大模型性能

[复制链接]
周大 发表于 2025-3-20 21:20:32 | 显示全部楼层 |阅读模式
字节与清华AIR联合实验室推出DAPO算法,使Qwen2.5-32B模型在AIME 2024基准上获50分,优于DeepSeek-R1-Zero-Qwen且训练步数减少50%。该算法由01年出生的禹棋赢主导研发,他作为字节Top Seed计划实习生,在大模型团队中负责强化学习(RL)方向研究。禹棋赢去年10月实现关键突破,推动RL技术进步。这反映了AI行业对前沿问题解决能力的重视,重塑了以经验为主的人才评价体系, curiosity与执行力成为新通行证。
来源:https://mp.weixin.qq.com/s/V3NerbwIECZoMN4IjXiVnA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 20:50 , Processed in 0.268952 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表