周大 发表于 2025-2-17 14:51:35

AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI、MIT及AI安全中心联合发布了名为ENIGMAEVAL的新基准测试,该测试基于解谜竞赛设计,包含1184道高难度跨学科谜题。实验结果显示,即使是最先进的大语言模型(如OpenAI o1)在普通谜题上的准确率也仅为7%,在困难谜题上更是完全失败。这暴露了当前AI在逻辑推理、多模态理解和复杂问题解决方面的能力局限。研究者指出,这一基准将有助于推动AI技术向更高层次发展,同时也提醒人们AI距离真正理解世界仍存在较大差距。
来源:https://mp.weixin.qq.com/s/Qv6gQpSLZ6ZeJo7-2gwy3A
页: [1]
查看完整版本: AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零