AI新基准测试HLE:顶尖模型准确率不足10%

[复制链接]
周大 发表于 2025-1-25 15:38:32 | 显示全部楼层 |阅读模式
Scale AI和CAIS推出名为“人类最后一次考试”的AI基准测试HLE,该测试包含3000个跨100多学科的高难度问题。测评结果显示,当前最先进语言模型准确率均低于10%,且表现出过度自信。为确保质量,HLE设立50万美元奖金池激励专家参与,共收集7万个试验性问题,最终筛选出3000题公开发布。研究者对7个前沿模型进行测试,发现推理型模型需要更多计算资源但表现仍不理想。尽管如此,AI发展迅速,预计2025年前模型准确率可能超过50%。
来源:https://tech.ifeng.com/c/8gQhG4ANvBO

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 11:38 , Processed in 0.292809 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表