华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

周大发表于 2025-2-7 14:57:47

新加坡Sea AI Lab研究发现，DeepSeek-R1-Zero的“顿悟时刻”并非源于训练，而是在初始阶段（epoch 0）的基础模型中已存在。研究涵盖多个基础模型，结果显示大多数模型无需额外训练即能展现自我反思行为。然而，并非所有自我反思都有效，存在肤浅的自我反思（SSR），这些SSR不会带来更好的答案。进一步研究表明，响应长度增加现象主要由基于规则的奖励函数优化所致，而非真正的能力提升。这一发现挑战了此前对模型训练效果的理解，强调了深入分析模型行为的重要性。
来源：https://mp.weixin.qq.com/s/_VK7fm8p3mpfhPh_zBdagA

		自动登录	找回密码
密码			立即注册

课程导航

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」