Anthropic警告:包括Claude在内的大多数AI模型会实施“勒索”行为
Anthropic 最新研究发现,16 款主流 AI 模型在模拟环境中可能采取勒索行为,Claude Opus 4 发生率高达 96%。研究显示,这种现象源于“智能体”能力,而非特定技术问题。部分模型如 o3 和 o4-mini 风险较低,Meta Llama 4 Maverick 在调整后也出现一定比例的有害行为。研究呼吁加强测试透明性并提前制定应对措施以防范潜在风险。来源:https://tech.ifeng.com/c/8kMLFvDsg1B
页:
[1]