Grok4基准测试结果疑似泄露，HLE得分45%超Gemini 2.5两倍，多项指标领先竞争对手

周大发表于 2025-7-5 15:40:56

Grok 4 及其编程版本 Grok 4 Code 的基准测试成绩疑似泄露。数据显示其在 HLE 测试中标准得分达 35%，推理技术加持后升至 45%，远超 GPT-4o 和 OpenAI o3，甚至接近 Gemini 2.5 Pro 的两倍。在 GPQA 和 AIME '25 测试中表现优异，Grok 4 Code 在编程基准测试中也与竞品持平或略优。不过部分结果遭网友质疑。该模型支持约 13 万 token 上下文，主打文本处理，具备函数调用和推理能力。马斯克表示开发进展顺利，尚未正式发布。若成绩属实，将对 AI 大模型领域产生重大影响。
来源：https://mp.weixin.qq.com/s/z5oNMWqJ37Q64ftUUhbxhg

		自动登录	找回密码
密码			立即注册

课程导航

Grok4基准测试结果疑似泄露，HLE得分45%超Gemini 2.5两倍，多项指标领先竞争对手