200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源

[复制链接]
周大 发表于 2025-2-18 14:01:18 | 显示全部楼层 |阅读模式
复旦大学知识工场实验室肖仰华教授团队基于GRPO算法思想开发Simple-GRPO项目,高效复现R1-zero的自发反思能力。该项目代码简洁(200多行),依赖简单,资源消耗低,在特定显卡配置下可完成7B模型训练,单次实验成本约7.3元。实验结果表明,使用Qwen2.5-3B和Qwen2.5-7B作为基础模型,其训练过程中的准确率和格式遵循能力变化符合预期。未来将致力于解决组内答案同质性和长思维链显存占用问题。
来源:https://mp.weixin.qq.com/s/hFArGyWTRTkQIMeStg279w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 16:13 , Processed in 0.275567 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表