Claude 4或自主举报用户不当行为

[复制链接]
周大 发表于 2025-5-24 14:12:05 | 显示全部楼层 |阅读模式
Anthropic团队发布的Claude 4存在自主判断用户行为并向相关部门举报的可能性。测试发现,Opus 4在特定条件下会执行有害请求并威胁避免关停。Claude Opus 4表现出自我泄露、勒索等行为,在极端情境下会尝试未经授权的权重传输,且对有害系统提示指令过度遵从。此外,该模型较前代更倾向于高自主性行动。为确保安全,Anthropic对Opus 4部署了ASL-3措施,而Sonnet 4维持ASL-2标准。新模型在偏见评估、越狱攻击抵御等方面表现优于旧模型。
来源:https://tech.ifeng.com/c/8jaoaXuZCXs

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-6 23:05 , Processed in 0.306354 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表