4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

[复制链接]
周大 发表于 2025-2-11 14:49:22 | 显示全部楼层 |阅读模式
UC伯克利团队仅用约4500美元成本,通过强化学习微调训练出15亿参数的DeepScaleR-1.5B-Preview模型,在AIME2024基准测试中Pass@1准确率高达43.1%,较基础模型提升14.3%,超越OpenAI o1-preview。该模型采用“先短后长”训练策略,逐步将上下文长度从8K扩展至24K token,有效提高了推理能力。研究团队已开源相关资源,证明强化学习可在小型模型上取得显著成果,为低成本开发高性能推理模型提供了新思路。
来源:https://mp.weixin.qq.com/s/g2PfdI8N1oU7RWU0owh75Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 23:38 , Processed in 0.280207 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表