DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

[复制链接]
周大 发表于 2025-1-21 19:15:38 | 显示全部楼层 |阅读模式
DeepSeek R1作为首个能与OpenAI o1比肩的开源推理模型,完全依赖强化学习(RL),无需监督微调(SFT)。该模型在AIME2024、MATH-500和Codeforces等多项基准测试中表现出色,甚至超越了人类专家水平。DeepSeek团队不仅开源了R1及其变体,还分享了研究过程中的关键发现,包括“啊哈”时刻——模型自主学会了解决问题的方法。这一成果得到了AI领域专家的认可,标志着强化学习算法的重大突破。
来源:https://mp.weixin.qq.com/s/MssR1cfg8twTdXW11qkm3g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 17:22 , Processed in 0.294881 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表