周大 发表于 2025-5-28 15:03:32

Sakana AI发布AI数独测试:大模型9x9数独正确率仅2.9%,变异数独难倒AI

Sakana AI推出全新基准Sudoku-Bench,用于测试AI模型解决数独问题的能力。该基准涵盖4x4至9x9难度的数独问题,强调创造性推理能力。测试结果表明,大模型总体正确率仅为15%,在复杂9x9数独中表现尤其不佳(如o3 Mini High正确率仅2.9%)。这反映了大模型存在的“记忆依赖症”,即依赖训练数据中的固定模式而非逻辑推理。Sudoku-Bench通过“变异数独”提供更严格的测试环境,成为评估AI推理能力的重要工具。该项目在2025 NVIDIA GTC开发者大会上亮相,获NVIDIA CEO黄仁勋肯定。Sakana AI由Transformer作者Llion Jones创立,此前已发布多项创新成果,包括AI科学家和连续思维机器(CTM)。
来源:https://mp.weixin.qq.com/s/2CuZyE4YMs7xD8HK7cf5xQ
页: [1]
查看完整版本: Sakana AI发布AI数独测试:大模型9x9数独正确率仅2.9%,变异数独难倒AI