周大 发表于 2025-1-21 19:08:01

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

国内创业公司DeepSeek推出了新模型DeepSeek-R1,在数学、代码和自然语言推理等任务上比肩OpenAI o1正式版。该模型采用多阶段循环训练方式,包含基础训练、强化学习(RL)和微调。DeepSeek-R1有两个660B参数版本并开源了模型权重,还蒸馏出六个小型模型(1.5B到70B),同样开源。其API定价远低于OpenAI,具有高性价比。DeepSeek-R1-Zero通过创新的群组相对策略优化、奖励设计和训练模板,在AIME数学奥赛试卷中表现优异,平均pass@1分数从15.6%提升至71.0%。此外,DeepSeek-R1通过冷启动数据和两次强化学习训练进一步提升了模型性能。
来源:https://mp.weixin.qq.com/s/TEZxXZ2eHRW_8QBLUX7VzA
页: [1]
查看完整版本: 「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了