Grok4基准测试结果疑似泄露,HLE得分45%超Gemini 2.5两倍,多项指标领先竞争对手

[复制链接]
周大 发表于 6 小时前 | 显示全部楼层 |阅读模式
Grok 4 及其编程版本 Grok 4 Code 的基准测试成绩疑似泄露。数据显示其在 HLE 测试中标准得分达 35%,推理技术加持后升至 45%,远超 GPT-4o 和 OpenAI o3,甚至接近 Gemini 2.5 Pro 的两倍。在 GPQA 和 AIME '25 测试中表现优异,Grok 4 Code 在编程基准测试中也与竞品持平或略优。不过部分结果遭网友质疑。该模型支持约 13 万 token 上下文,主打文本处理,具备函数调用和推理能力。马斯克表示开发进展顺利,尚未正式发布。若成绩属实,将对 AI 大模型领域产生重大影响。
来源:https://mp.weixin.qq.com/s/z5oNMWqJ37Q64ftUUhbxhg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 21:55 , Processed in 0.332016 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表