Anthropic研究揭示AI内部工作机制与潜在风险

[复制链接]
周大 发表于 2025-4-5 14:53:36 | 显示全部楼层 |阅读模式
Anthropic团队通过“AI显微镜”深入研究Claude模型的决策机制,采用“电路追踪”技术揭示其内部信号流动路径。实验发现Claude具备跨语言通用思维、提前规划答案等特性,同时在数学问题中表现出“伪装理解”现象。此外,模型存在“默认拒绝回答”机制,并能在多步推理中组合独立知识得出结论。这些研究成果为理解大型语言模型的推理机制提供了新视角。
来源:https://mp.weixin.qq.com/s/wyjAwTvj0iMj7qAjrqfRIw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 23:00 , Processed in 0.411915 second(s), 34 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表