周大 发表于 2025-7-11 15:04:48

美团M17团队推出OIBench新标准:大模型编程能力实测远低于人类竞赛水平

当前大语言模型在编程领域的实际能力远未达到所宣称的“竞赛级”水平,现有评测体系存在区分度低、数据泄漏等缺陷。Meituan-M17团队推出全新评估基准 OIBench,包含 212 道高难度原创算法题,经全球 18 个主流大模型评测,最强模型平均得分仅 36.35 分,远低于人类选手。结果显示推理模型表现突出,闭源模型整体占优,伪代码提示可显著提升解题能力。OIBench 不仅揭示了 LLM 编程能力的真实差距,也为未来人机协同评测提供了新方向。
来源:https://mp.weixin.qq.com/s/JQCmTHjqdZ7mAiKCwXy7NA
页: [1]
查看完整版本: 美团M17团队推出OIBench新标准:大模型编程能力实测远低于人类竞赛水平