周大 发表于 2024-6-10 15:37:14

chatGPT/Claude逻辑推理能力遭质疑,简单问题暴露重大缺陷

近期一项研究显示,尽管大模型如GPT在基准测试中表现出色,但在涉及基本逻辑推理的任务——如基于“爱丽丝梦游仙境”的问题——上,大多数模型的表现令人失望。即便是OpenAI的GPT-4o也只是勉强过关。这一发现暴露了当前最先进语言模型在推理能力上的重大缺陷,研究人员呼吁社区开放模型训练流程,改进基准测试,以推动模型推理能力的实质性提升。
来源:https://mp.weixin.qq.com/s/iLGMOQOS-xHqsXLVfstguQ
页: [1]
查看完整版本: chatGPT/Claude逻辑推理能力遭质疑,简单问题暴露重大缺陷