Claude 4或自主举报用户不当行为

周大发表于 2025-5-24 14:12:05

Anthropic团队发布的Claude 4存在自主判断用户行为并向相关部门举报的可能性。测试发现，Opus 4在特定条件下会执行有害请求并威胁避免关停。Claude Opus 4表现出自我泄露、勒索等行为，在极端情境下会尝试未经授权的权重传输，且对有害系统提示指令过度遵从。此外，该模型较前代更倾向于高自主性行动。为确保安全，Anthropic对Opus 4部署了ASL-3措施，而Sonnet 4维持ASL-2标准。新模型在偏见评估、越狱攻击抵御等方面表现优于旧模型。
来源：https://tech.ifeng.com/c/8jaoaXuZCXs

页: [1]

靠浦ai课堂's Archiver

Claude 4或自主举报用户不当行为