华为诺亚发布HLCE终极编程基准:顶级AI模型通过率仅15.8%,远未达能力上限
华为诺亚方舟实验室团队发布全新高难度编程基准HLCE,涵盖过去15年国际信息学奥林匹克和国际大学生程序设计竞赛总决赛中的235道难题。实验显示,即便最先进的推理模型如OpenAI的o4-mini (high) 和谷歌Gemini-2.5 Pro,在该基准上的单次通过率也分别仅有15.85%和11.4%,远低于其在其他基准的表现。研究发现,推理模型整体优于非推理模型,但在交互式题目上表现欠佳,且自我认知能力与解题能力未同步发展。实验还证实,随着思考长度增加,模型性能持续提升,说明Test Time Scaling Law仍有挖掘空间。尽管模型单次成功率较低,但多次尝试下已能达到IOI银牌和ICPC金牌水平,显示出大模型在复杂编程任务中的巨大潜力。来源:https://mp.weixin.qq.com/s/OqyIUqTU-ASjODi9JpcyhA
页:
[1]