周大 发表于 2025-3-6 15:05:01

360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill

360智脑近日开源了Light-R1-32B模型及其训练数据与代码。此模型基于Qwen2.5-32B-Instruct,通过7万条数学数据训练,在AIME24测试中获得76.6分,超越DeepSeek-R1-Distill-Qwen-32B。整个训练过程仅需12台H800服务器6小时,成本约1000美元,展现出高效低成本的特点。Light-R1-32B还表现出良好的泛化性,并采用两阶段课程学习SFT和DPO训练,全量开源以促进开源社区的发展。
来源:https://mp.weixin.qq.com/s/5VPU0C8EK8jxdtm7OJS5lA
页: [1]
查看完整版本: 360智脑开源Light-R1!1000美元数学上首次从零超越DeepSeek-R1-Distill