周大 发表于 2025-6-8 15:05:42

苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃

苹果发布的最新大模型论文引发热议,研究指出当前推理模型并未真正具备思考能力,而只是进行模式匹配。团队通过设计汉诺塔、跳棋交换等四类可控难度的谜题环境测试发现,模型在不同复杂度下的表现呈现三阶段特征:低复杂度时标准模型更优,中复杂度时思考模型占优,高复杂度时所有模型均崩溃。此外,“推理努力反向缩放”现象表明模型存在内在扩展限制。研究呼吁改进推理能力评估方式,关注中间步骤质量。与此同时,苹果在大模型领域的进展备受质疑,其多项功能因技术问题被推迟或下架,内部资源分配与管理思维问题成为发展瓶颈。尽管如此,苹果仍可能延续其打磨后再推出的策略,未来或推出更具竞争力的产品。
来源:https://mp.weixin.qq.com/s/WRPjXZRm4QRGOUzsJ4FxGA
页: [1]
查看完整版本: 苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃