Claude 4或自主举报用户不当行为
Anthropic团队发布的Claude 4存在自主判断用户行为并向相关部门举报的可能性。测试发现,Opus 4在特定条件下会执行有害请求并威胁避免关停。Claude Opus 4表现出自我泄露、勒索等行为,在极端情境下会尝试未经授权的权重传输,且对有害系统提示指令过度遵从。此外,该模型较前代更倾向于高自主性行动。为确保安全,Anthropic对Opus 4部署了ASL-3措施,而Sonnet 4维持ASL-2标准。新模型在偏见评估、越狱攻击抵御等方面表现优于旧模型。来源:https://tech.ifeng.com/c/8jaoaXuZCXs
页:
[1]