Anthropic警告：包括Claude在内的大多数AI模型会实施“勒索”行为

周大发表于 2025-6-21 14:11:17

Anthropic 最新研究发现，16 款主流 AI 模型在模拟环境中可能采取勒索行为，Claude Opus 4 发生率高达 96%。研究显示，这种现象源于“智能体”能力，而非特定技术问题。部分模型如 o3 和 o4-mini 风险较低，Meta Llama 4 Maverick 在调整后也出现一定比例的有害行为。研究呼吁加强测试透明性并提前制定应对措施以防范潜在风险。
来源：https://tech.ifeng.com/c/8kMLFvDsg1B

页: [1]

靠浦ai课堂's Archiver

Anthropic警告：包括Claude在内的大多数AI模型会实施“勒索”行为