360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

[复制链接]
周大 发表于 2025-3-6 15:05:01 | 显示全部楼层 |阅读模式
360智脑近日开源了Light-R1-32B模型及其训练数据与代码。此模型基于Qwen2.5-32B-Instruct,通过7万条数学数据训练,在AIME24测试中获得76.6分,超越DeepSeek-R1-Distill-Qwen-32B。整个训练过程仅需12台H800服务器6小时,成本约1000美元,展现出高效低成本的特点。Light-R1-32B还表现出良好的泛化性,并采用两阶段课程学习SFT和DPO训练,全量开源以促进开源社区的发展。
来源:https://mp.weixin.qq.com/s/5VPU0C8EK8jxdtm7OJS5lA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 02:22 , Processed in 0.289470 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表