200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

周大发表于 2025-2-18 14:01:18

复旦大学知识工场实验室肖仰华教授团队基于GRPO算法思想开发Simple-GRPO项目，高效复现R1-zero的自发反思能力。该项目代码简洁（200多行），依赖简单，资源消耗低，在特定显卡配置下可完成7B模型训练，单次实验成本约7.3元。实验结果表明，使用Qwen2.5-3B和Qwen2.5-7B作为基础模型，其训练过程中的准确率和格式遵循能力变化符合预期。未来将致力于解决组内答案同质性和长思维链显存占用问题。
来源：https://mp.weixin.qq.com/s/hFArGyWTRTkQIMeStg279w

		自动登录	找回密码
密码			立即注册

课程导航

200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源