chatGPT/Claude逻辑推理能力遭质疑，简单问题暴露重大缺陷

周大发表于 2024-6-10 15:37:14

近期一项研究显示，尽管大模型如GPT在基准测试中表现出色，但在涉及基本逻辑推理的任务——如基于“爱丽丝梦游仙境”的问题——上，大多数模型的表现令人失望。即便是OpenAI的GPT-4o也只是勉强过关。这一发现暴露了当前最先进语言模型在推理能力上的重大缺陷，研究人员呼吁社区开放模型训练流程，改进基准测试，以推动模型推理能力的实质性提升。
来源：https://mp.weixin.qq.com/s/iLGMOQOS-xHqsXLVfstguQ

页: [1]

靠浦ai课堂's Archiver

chatGPT/Claude逻辑推理能力遭质疑，简单问题暴露重大缺陷