AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

[复制链接]
周大 发表于 2025-2-17 14:51:35 | 显示全部楼层 |阅读模式
Scale AI、MIT及AI安全中心联合发布了名为ENIGMAEVAL的新基准测试,该测试基于解谜竞赛设计,包含1184道高难度跨学科谜题。实验结果显示,即使是最先进的大语言模型(如OpenAI o1)在普通谜题上的准确率也仅为7%,在困难谜题上更是完全失败。这暴露了当前AI在逻辑推理、多模态理解和复杂问题解决方面的能力局限。研究者指出,这一基准将有助于推动AI技术向更高层次发展,同时也提醒人们AI距离真正理解世界仍存在较大差距。
来源:https://mp.weixin.qq.com/s/Qv6gQpSLZ6ZeJo7-2gwy3A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-15 01:09 , Processed in 0.393519 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表