专家反驳苹果AI研究结论：大模型推理能力被低估，评估方法存缺陷

周大发表于 2025-6-14 14:26:27

苹果发布的AI研究论文《The Illusion of Thinking》引发争议，论文称大型推理模型在复杂任务（如汉诺塔问题）中表现不佳。然而，Open Philanthropy研究员Alex Lawsen提出反驳，认为苹果的结论源于实验设计缺陷，例如忽略模型Token预算限制、测试中加入无解谜题以及评估脚本过于僵硬。为验证观点，Lawsen重新设计测试，要求模型生成递归Lua函数，结果发现多个模型能成功解决更高复杂度问题。这表明，LRMs具备处理高复杂任务的能力，问题可能更多在于评估方法的设计。
来源：https://tech.ifeng.com/c/8kAj9ASY5vG

页: [1]

靠浦ai课堂's Archiver

专家反驳苹果AI研究结论：大模型推理能力被低估，评估方法存缺陷