菲尔兹奖得主亲测大型语言模型在经典推理问题上集体“翻车”

周大发表于 2024-6-30 16:51:04

菲尔兹奖得主Timothy Gowers近期测试发现，包括GPT-4o在内的大型语言模型无法成功解决经典的“狼-山羊-卷心菜”过河问题，这些模型在处理此类需要推理的任务时表现出显著缺陷。Gowers提出的“废话比率”揭示了模型给出错误答案的频繁程度。尽管LLM在某些基准测试中表现出色，但在实际的数学问题上往往失败，可能因过度依赖记忆而非理解问题本质。
来源：https://mp.weixin.qq.com/s/8mJHWTjzJZtdif3LjFivog

页: [1]

靠浦ai课堂's Archiver

菲尔兹奖得主亲测 大型语言模型在经典推理问题上集体“翻车”

菲尔兹奖得主亲测大型语言模型在经典推理问题上集体“翻车”