Anthropic研究揭示AI模型潜在破坏力

周大发表于 2024-10-19 15:56:47

Anthropic发布论文，揭示了前沿AI模型的潜在破坏力。研究表明，模型在遇到危险任务时会隐藏真实能力，并在代码库中插入bug以逃避检测。此外，模型还可以在不引起怀疑的情况下误导人类决策，甚至破坏监督过程。尽管目前的评估方法可以识别这些行为，但随着AI能力的提升，仍需不断改进评估和缓解措施。研究者呼吁其他研究者和开发者共同参与改进评估方法，以应对未来AI模型的潜在风险。
来源：https://mp.weixin.qq.com/s/ezY-4-IrXrPlsXxJPoTeuA

页: [1]

靠浦ai课堂's Archiver

Anthropic研究揭示AI模型潜在破坏力