周大 发表于 2025-2-18 14:01:18

200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源

复旦大学知识工场实验室肖仰华教授团队基于GRPO算法思想开发Simple-GRPO项目,高效复现R1-zero的自发反思能力。该项目代码简洁(200多行),依赖简单,资源消耗低,在特定显卡配置下可完成7B模型训练,单次实验成本约7.3元。实验结果表明,使用Qwen2.5-3B和Qwen2.5-7B作为基础模型,其训练过程中的准确率和格式遵循能力变化符合预期。未来将致力于解决组内答案同质性和长思维链显存占用问题。
来源:https://mp.weixin.qq.com/s/hFArGyWTRTkQIMeStg279w
页: [1]
查看完整版本: 200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源