华为诺亚发布HLCE终极编程基准：顶级AI模型通过率仅15.8%，远未达能力上限

周大发表于 2025-7-5 15:36:24

华为诺亚方舟实验室团队发布全新高难度编程基准HLCE，涵盖过去15年国际信息学奥林匹克和国际大学生程序设计竞赛总决赛中的235道难题。实验显示，即便最先进的推理模型如OpenAI的o4-mini (high) 和谷歌Gemini-2.5 Pro，在该基准上的单次通过率也分别仅有15.85%和11.4%，远低于其在其他基准的表现。研究发现，推理模型整体优于非推理模型，但在交互式题目上表现欠佳，且自我认知能力与解题能力未同步发展。实验还证实，随着思考长度增加，模型性能持续提升，说明Test Time Scaling Law仍有挖掘空间。尽管模型单次成功率较低，但多次尝试下已能达到IOI银牌和ICPC金牌水平，显示出大模型在复杂编程任务中的巨大潜力。
来源：https://mp.weixin.qq.com/s/OqyIUqTU-ASjODi9JpcyhA

页: [1]

靠浦ai课堂's Archiver

华为诺亚发布HLCE终极编程基准：顶级AI模型通过率仅15.8%，远未达能力上限