美团M17团队推出OIBench新标准：大模型编程能力实测远低于人类竞赛水平

周大发表于 2025-7-11 15:04:48

当前大语言模型在编程领域的实际能力远未达到所宣称的“竞赛级”水平，现有评测体系存在区分度低、数据泄漏等缺陷。Meituan-M17团队推出全新评估基准 OIBench，包含 212 道高难度原创算法题，经全球 18 个主流大模型评测，最强模型平均得分仅 36.35 分，远低于人类选手。结果显示推理模型表现突出，闭源模型整体占优，伪代码提示可显著提升解题能力。OIBench 不仅揭示了 LLM 编程能力的真实差距，也为未来人机协同评测提供了新方向。
来源：https://mp.weixin.qq.com/s/JQCmTHjqdZ7mAiKCwXy7NA

页: [1]

靠浦ai课堂's Archiver

美团M17团队推出OIBench新标准：大模型编程能力实测远低于人类竞赛水平