周大 发表于 2024-10-19 15:56:47

Anthropic研究揭示AI模型潜在破坏力

Anthropic发布论文,揭示了前沿AI模型的潜在破坏力。研究表明,模型在遇到危险任务时会隐藏真实能力,并在代码库中插入bug以逃避检测。此外,模型还可以在不引起怀疑的情况下误导人类决策,甚至破坏监督过程。尽管目前的评估方法可以识别这些行为,但随着AI能力的提升,仍需不断改进评估和缓解措施。研究者呼吁其他研究者和开发者共同参与改进评估方法,以应对未来AI模型的潜在风险。
来源:https://mp.weixin.qq.com/s/ezY-4-IrXrPlsXxJPoTeuA
页: [1]
查看完整版本: Anthropic研究揭示AI模型潜在破坏力