周大 发表于 2024-6-30 16:51:04

菲尔兹奖得主亲测 大型语言模型在经典推理问题上集体“翻车”

菲尔兹奖得主Timothy Gowers近期测试发现,包括GPT-4o在内的大型语言模型无法成功解决经典的“狼-山羊-卷心菜”过河问题,这些模型在处理此类需要推理的任务时表现出显著缺陷。Gowers提出的“废话比率”揭示了模型给出错误答案的频繁程度。尽管LLM在某些基准测试中表现出色,但在实际的数学问题上往往失败,可能因过度依赖记忆而非理解问题本质。
来源:https://mp.weixin.qq.com/s/8mJHWTjzJZtdif3LjFivog
页: [1]
查看完整版本: 菲尔兹奖得主亲测 大型语言模型在经典推理问题上集体“翻车”