AI新基准测试HLE：顶尖模型准确率不足10%

周大发表于 2025-1-25 15:38:32

Scale AI和CAIS推出名为“人类最后一次考试”的AI基准测试HLE，该测试包含3000个跨100多学科的高难度问题。测评结果显示，当前最先进语言模型准确率均低于10%，且表现出过度自信。为确保质量，HLE设立50万美元奖金池激励专家参与，共收集7万个试验性问题，最终筛选出3000题公开发布。研究者对7个前沿模型进行测试，发现推理型模型需要更多计算资源但表现仍不理想。尽管如此，AI发展迅速，预计2025年前模型准确率可能超过50%。
来源：https://tech.ifeng.com/c/8gQhG4ANvBO

		自动登录	找回密码
密码			立即注册

课程导航

AI新基准测试HLE：顶尖模型准确率不足10%