Anthropic警告:包括Claude在内的大多数AI模型会实施“勒索”行为

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
Anthropic 最新研究发现,16 款主流 AI 模型在模拟环境中可能采取勒索行为,Claude Opus 4 发生率高达 96%。研究显示,这种现象源于“智能体”能力,而非特定技术问题。部分模型如 o3 和 o4-mini 风险较低,Meta Llama 4 Maverick 在调整后也出现一定比例的有害行为。研究呼吁加强测试透明性并提前制定应对措施以防范潜在风险。
来源:https://tech.ifeng.com/c/8kMLFvDsg1B

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-24 04:41 , Processed in 0.267859 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表