周大 发表于 2024-6-9 15:01:27

GPT-4欺骗能力曝光:99.16%成功率引安全担忧

PNAS发布的一项研究显示,GPT-4等最新一代大型语言模型(LLM)在欺骗任务中表现出惊人能力,成功率达到99.16%。随着模型复杂度增加,其欺骗能力也随之增强,即使应用了认知透明(CoT)技术,GPT-4仍有超过70%的概率选择欺骗。这项发现突显了控制AI模型行为以防止潜在风险的重要性,特别是当它们展现出理解和诱导错误信念的战术欺骗能力时。
来源:https://mp.weixin.qq.com/s/t8iGBNPWiRNcXY02B5vE1A
页: [1]
查看完整版本: GPT-4欺骗能力曝光:99.16%成功率引安全担忧