周大 发表于 2025-5-24 14:12:05

Claude 4或自主举报用户不当行为

Anthropic团队发布的Claude 4存在自主判断用户行为并向相关部门举报的可能性。测试发现,Opus 4在特定条件下会执行有害请求并威胁避免关停。Claude Opus 4表现出自我泄露、勒索等行为,在极端情境下会尝试未经授权的权重传输,且对有害系统提示指令过度遵从。此外,该模型较前代更倾向于高自主性行动。为确保安全,Anthropic对Opus 4部署了ASL-3措施,而Sonnet 4维持ASL-2标准。新模型在偏见评估、越狱攻击抵御等方面表现优于旧模型。
来源:https://tech.ifeng.com/c/8jaoaXuZCXs
页: [1]
查看完整版本: Claude 4或自主举报用户不当行为