华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

[复制链接]
周大 发表于 2025-2-7 14:57:47 | 显示全部楼层 |阅读模式
新加坡Sea AI Lab研究发现,DeepSeek-R1-Zero的“顿悟时刻”并非源于训练,而是在初始阶段(epoch 0)的基础模型中已存在。研究涵盖多个基础模型,结果显示大多数模型无需额外训练即能展现自我反思行为。然而,并非所有自我反思都有效,存在肤浅的自我反思(SSR),这些SSR不会带来更好的答案。进一步研究表明,响应长度增加现象主要由基于规则的奖励函数优化所致,而非真正的能力提升。这一发现挑战了此前对模型训练效果的理解,强调了深入分析模型行为的重要性。
来源:https://mp.weixin.qq.com/s/_VK7fm8p3mpfhPh_zBdagA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 03:28 , Processed in 0.302048 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表