OpenAI又Open了一下：发布可解释性新研究，作者来自Ilya超级对齐团队

周大发表于 2025-11-15 15:11:31

OpenAI发布新研究，提出通过训练高稀疏性小模型提升AI可解释性。该方法基于GPT-2架构，强制多数权重为零，构建易于分析的“回路”以理解模型行为。实验在引号补全等任务中成功识别出仅含数个节点的最小计算单元，表明稀疏化有助于揭示模型机制。尽管当前模型规模有限且训练效率较低，但研究表明该路径具备扩展潜力，未来或可通过提取现有模型回路或优化训练技术推进应用。
来源：https://mp.weixin.qq.com/s/jF4qlkMH3l7A1ZBbpe4pig

		自动登录	找回密码
密码			立即注册

课程导航

OpenAI又Open了一下：发布可解释性新研究，作者来自Ilya超级对齐团队