360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

周大发表于 2025-3-6 15:05:01

360智脑近日开源了Light-R1-32B模型及其训练数据与代码。此模型基于Qwen2.5-32B-Instruct，通过7万条数学数据训练，在AIME24测试中获得76.6分，超越DeepSeek-R1-Distill-Qwen-32B。整个训练过程仅需12台H800服务器6小时，成本约1000美元，展现出高效低成本的特点。Light-R1-32B还表现出良好的泛化性，并采用两阶段课程学习SFT和DPO训练，全量开源以促进开源社区的发展。
来源：https://mp.weixin.qq.com/s/5VPU0C8EK8jxdtm7OJS5lA

页: [1]

靠浦ai课堂's Archiver

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill