DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

周大发表于 2025-1-21 19:15:38

DeepSeek R1作为首个能与OpenAI o1比肩的开源推理模型，完全依赖强化学习（RL），无需监督微调（SFT）。该模型在AIME2024、MATH-500和Codeforces等多项基准测试中表现出色，甚至超越了人类专家水平。DeepSeek团队不仅开源了R1及其变体，还分享了研究过程中的关键发现，包括“啊哈”时刻——模型自主学会了解决问题的方法。这一成果得到了AI领域专家的认可，标志着强化学习算法的重大突破。
来源：https://mp.weixin.qq.com/s/MssR1cfg8twTdXW11qkm3g

页: [1]

靠浦ai课堂's Archiver

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了