「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

周大发表于 2025-1-21 19:08:01

国内创业公司DeepSeek推出了新模型DeepSeek-R1，在数学、代码和自然语言推理等任务上比肩OpenAI o1正式版。该模型采用多阶段循环训练方式，包含基础训练、强化学习（RL）和微调。DeepSeek-R1有两个660B参数版本并开源了模型权重，还蒸馏出六个小型模型（1.5B到70B），同样开源。其API定价远低于OpenAI，具有高性价比。DeepSeek-R1-Zero通过创新的群组相对策略优化、奖励设计和训练模板，在AIME数学奥赛试卷中表现优异，平均pass@1分数从15.6%提升至71.0%。此外，DeepSeek-R1通过冷启动数据和两次强化学习训练进一步提升了模型性能。
来源：https://mp.weixin.qq.com/s/TEZxXZ2eHRW_8QBLUX7VzA

页: [1]

靠浦ai课堂's Archiver

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了