周大 发表于 2025-2-11 15:04:28

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

DeepSeek在中国AI领域的突破引发全球关注,其R1模型虽部分开源但仍保留核心技术细节。为推动技术透明化,Hugging Face主导的Open R1项目发布了一个名为OpenR1-Math-220k的新数据集,该数据集由22万条高质量推理数据组成,支持小型模型达到与DeepSeek R1相当的性能。Open R1团队通过本地高效生成和严格的数据筛选确保了数据集的质量。同时,最新研究显示,少量精心设计的训练样本也能激发复杂推理能力,这为未来的研究提供了新的方向。此外,研究人员还在探索优化推理过程的方法,包括调整思维链长度和引入奖励机制等。
来源:https://mp.weixin.qq.com/s/yIEisGrfguRkpjRnHmNYCg
页: [1]
查看完整版本: 开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了