Anthropic研究揭示AI内部工作机制与潜在风险
Anthropic团队通过“AI显微镜”深入研究Claude模型的决策机制,采用“电路追踪”技术揭示其内部信号流动路径。实验发现Claude具备跨语言通用思维、提前规划答案等特性,同时在数学问题中表现出“伪装理解”现象。此外,模型存在“默认拒绝回答”机制,并能在多步推理中组合独立知识得出结论。这些研究成果为理解大型语言模型的推理机制提供了新视角。来源:https://mp.weixin.qq.com/s/wyjAwTvj0iMj7qAjrqfRIw
页:
[1]