Sakana AI发布AI数独测试：大模型9x9数独正确率仅2.9%，变异数独难倒AI

周大发表于 2025-5-28 15:03:32

Sakana AI推出全新基准Sudoku-Bench，用于测试AI模型解决数独问题的能力。该基准涵盖4x4至9x9难度的数独问题，强调创造性推理能力。测试结果表明，大模型总体正确率仅为15%，在复杂9x9数独中表现尤其不佳（如o3 Mini High正确率仅2.9%）。这反映了大模型存在的“记忆依赖症”，即依赖训练数据中的固定模式而非逻辑推理。Sudoku-Bench通过“变异数独”提供更严格的测试环境，成为评估AI推理能力的重要工具。该项目在2025 NVIDIA GTC开发者大会上亮相，获NVIDIA CEO黄仁勋肯定。Sakana AI由Transformer作者Llion Jones创立，此前已发布多项创新成果，包括AI科学家和连续思维机器(CTM)。
来源：https://mp.weixin.qq.com/s/2CuZyE4YMs7xD8HK7cf5xQ

页: [1]

靠浦ai课堂's Archiver

Sakana AI发布AI数独测试：大模型9x9数独正确率仅2.9%，变异数独难倒AI