周大 发表于 2025-6-14 14:26:27

专家反驳苹果AI研究结论:大模型推理能力被低估,评估方法存缺陷

苹果发布的AI研究论文《The Illusion of Thinking》引发争议,论文称大型推理模型在复杂任务(如汉诺塔问题)中表现不佳。然而,Open Philanthropy研究员Alex Lawsen提出反驳,认为苹果的结论源于实验设计缺陷,例如忽略模型Token预算限制、测试中加入无解谜题以及评估脚本过于僵硬。为验证观点,Lawsen重新设计测试,要求模型生成递归Lua函数,结果发现多个模型能成功解决更高复杂度问题。这表明,LRMs具备处理高复杂任务的能力,问题可能更多在于评估方法的设计。
来源:https://tech.ifeng.com/c/8kAj9ASY5vG
页: [1]
查看完整版本: 专家反驳苹果AI研究结论:大模型推理能力被低估,评估方法存缺陷