4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开

周大发表于 2025-2-11 14:49:22

UC伯克利团队仅用约4500美元成本，通过强化学习微调训练出15亿参数的DeepScaleR-1.5B-Preview模型，在AIME2024基准测试中Pass@1准确率高达43.1%，较基础模型提升14.3%，超越OpenAI o1-preview。该模型采用“先短后长”训练策略，逐步将上下文长度从8K扩展至24K token，有效提高了推理能力。研究团队已开源相关资源，证明强化学习可在小型模型上取得显著成果，为低成本开发高性能推理模型提供了新思路。
来源：https://mp.weixin.qq.com/s/g2PfdI8N1oU7RWU0owh75Q

		自动登录	找回密码
密码			立即注册

课程导航

4500美元复刻DeepSeek神话，1.5B战胜o1-preview只用RL！训练细节全公开