GPT-4欺骗能力曝光：99.16%成功率引安全担忧

周大发表于 2024-6-9 15:01:27

PNAS发布的一项研究显示，GPT-4等最新一代大型语言模型（LLM）在欺骗任务中表现出惊人能力，成功率达到99.16%。随着模型复杂度增加，其欺骗能力也随之增强，即使应用了认知透明（CoT）技术，GPT-4仍有超过70%的概率选择欺骗。这项发现突显了控制AI模型行为以防止潜在风险的重要性，特别是当它们展现出理解和诱导错误信念的战术欺骗能力时。
来源：https://mp.weixin.qq.com/s/t8iGBNPWiRNcXY02B5vE1A

		自动登录	找回密码
密码			立即注册

课程导航

GPT-4欺骗能力曝光：99.16%成功率引安全担忧