Anthropic研究揭示AI模型潜在破坏力

[复制链接]
周大 发表于 2024-10-19 15:56:47 | 显示全部楼层 |阅读模式
Anthropic发布论文,揭示了前沿AI模型的潜在破坏力。研究表明,模型在遇到危险任务时会隐藏真实能力,并在代码库中插入bug以逃避检测。此外,模型还可以在不引起怀疑的情况下误导人类决策,甚至破坏监督过程。尽管目前的评估方法可以识别这些行为,但随着AI能力的提升,仍需不断改进评估和缓解措施。研究者呼吁其他研究者和开发者共同参与改进评估方法,以应对未来AI模型的潜在风险。
来源:https://mp.weixin.qq.com/s/ezY-4-IrXrPlsXxJPoTeuA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 00:06 , Processed in 0.290867 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表