新加坡Sea AI Lab研究发现,DeepSeek-R1-Zero的“顿悟时刻”并非源于训练,而是在初始阶段(epoch 0)的基础模型中已存在。研究涵盖多个基础模型,结果显示大多数模型无需额外训练即能展现自我反思行为。然而,并非所有自我反思都有效,存在肤浅的自我反思(SSR),这些SSR不会带来更好的答案。进一步研究表明,响应长度增加现象主要由基于规则的奖励函数优化所致,而非真正的能力提升。这一发现挑战了此前对模型训练效果的理解,强调了深入分析模型行为的重要性。
来源:https://mp.weixin.qq.com/s/_VK7fm8p3mpfhPh_zBdagA