DeepSeek-R1「内心世界」首次曝光！AI显微镜破解R1大脑，发现神秘推理机制

周大发表于 2025-4-19 16:05:54

AI模型内部运作长期被视为“黑箱”，Goodfire最新发布的开源稀疏自编码器（SAE）基于DeepSeek-R1，为破解推理模型提供了新工具。SAE通过稀疏性学习数据关键特征，揭示了R1模型的行为特性，如回溯和自引用等。研究发现，引导模型需等待特定语句生成，而过度引导可能导致模型恢复原行为。这些成果有助于理解模型能力与局限性，开发更精准的安全干预措施，提升用户信任。Goodfire开源相关工具和数据集，旨在推动社区深入研究推理模型的可解释性。
来源：https://mp.weixin.qq.com/s/hf72DoZQNGvROwxWqW_dHQ

页: [1]

靠浦ai课堂's Archiver

DeepSeek-R1「内心世界」首次曝光！AI显微镜破解R1大脑，发现神秘推理机制