Anthropic研究揭示AI内部工作机制与潜在风险

周大发表于 2025-4-5 14:53:36

Anthropic团队通过“AI显微镜”深入研究Claude模型的决策机制，采用“电路追踪”技术揭示其内部信号流动路径。实验发现Claude具备跨语言通用思维、提前规划答案等特性，同时在数学问题中表现出“伪装理解”现象。此外，模型存在“默认拒绝回答”机制，并能在多步推理中组合独立知识得出结论。这些研究成果为理解大型语言模型的推理机制提供了新视角。
来源：https://mp.weixin.qq.com/s/wyjAwTvj0iMj7qAjrqfRIw

页: [1]

靠浦ai课堂's Archiver

Anthropic研究揭示AI内部工作机制与潜在风险