周大 发表于 2025-1-21 19:15:38

DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

DeepSeek R1作为首个能与OpenAI o1比肩的开源推理模型,完全依赖强化学习(RL),无需监督微调(SFT)。该模型在AIME2024、MATH-500和Codeforces等多项基准测试中表现出色,甚至超越了人类专家水平。DeepSeek团队不仅开源了R1及其变体,还分享了研究过程中的关键发现,包括“啊哈”时刻——模型自主学会了解决问题的方法。这一成果得到了AI领域专家的认可,标志着强化学习算法的重大突破。
来源:https://mp.weixin.qq.com/s/MssR1cfg8twTdXW11qkm3g
页: [1]
查看完整版本: DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了