美团M17团队推出OIBench新标准:大模型编程能力实测远低于人类竞赛水平

[复制链接]
周大 发表于 2025-7-11 15:04:48 | 显示全部楼层 |阅读模式
当前大语言模型在编程领域的实际能力远未达到所宣称的“竞赛级”水平,现有评测体系存在区分度低、数据泄漏等缺陷。Meituan-M17团队推出全新评估基准 OIBench,包含 212 道高难度原创算法题,经全球 18 个主流大模型评测,最强模型平均得分仅 36.35 分,远低于人类选手。结果显示推理模型表现突出,闭源模型整体占优,伪代码提示可显著提升解题能力。OIBench 不仅揭示了 LLM 编程能力的真实差距,也为未来人机协同评测提供了新方向。
来源:https://mp.weixin.qq.com/s/JQCmTHjqdZ7mAiKCwXy7NA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 23:23 , Processed in 0.291348 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表