DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制
AI模型内部运作长期被视为“黑箱”,Goodfire最新发布的开源稀疏自编码器(SAE)基于DeepSeek-R1,为破解推理模型提供了新工具。SAE通过稀疏性学习数据关键特征,揭示了R1模型的行为特性,如回溯和自引用等。研究发现,引导模型需等待特定语句生成,而过度引导可能导致模型恢复原行为。这些成果有助于理解模型能力与局限性,开发更精准的安全干预措施,提升用户信任。Goodfire开源相关工具和数据集,旨在推动社区深入研究推理模型的可解释性。来源:https://mp.weixin.qq.com/s/hf72DoZQNGvROwxWqW_dHQ
页:
[1]