AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

周大发表于 2025-2-17 14:51:35

Scale AI、MIT及AI安全中心联合发布了名为ENIGMAEVAL的新基准测试，该测试基于解谜竞赛设计，包含1184道高难度跨学科谜题。实验结果显示，即使是最先进的大语言模型（如OpenAI o1）在普通谜题上的准确率也仅为7%，在困难谜题上更是完全失败。这暴露了当前AI在逻辑推理、多模态理解和复杂问题解决方面的能力局限。研究者指出，这一基准将有助于推动AI技术向更高层次发展，同时也提醒人们AI距离真正理解世界仍存在较大差距。
来源：https://mp.weixin.qq.com/s/Qv6gQpSLZ6ZeJo7-2gwy3A

页: [1]

靠浦ai课堂's Archiver

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零