华为诺亚发布HLCE终极编程基准:顶级AI模型通过率仅15.8%,远未达能力上限

[复制链接]
周大 发表于 6 小时前 | 显示全部楼层 |阅读模式
华为诺亚方舟实验室团队发布全新高难度编程基准HLCE,涵盖过去15年国际信息学奥林匹克和国际大学生程序设计竞赛总决赛中的235道难题。实验显示,即便最先进的推理模型如OpenAI的o4-mini (high) 和谷歌Gemini-2.5 Pro,在该基准上的单次通过率也分别仅有15.85%和11.4%,远低于其在其他基准的表现。研究发现,推理模型整体优于非推理模型,但在交互式题目上表现欠佳,且自我认知能力与解题能力未同步发展。实验还证实,随着思考长度增加,模型性能持续提升,说明Test Time Scaling Law仍有挖掘空间。尽管模型单次成功率较低,但多次尝试下已能达到IOI银牌和ICPC金牌水平,显示出大模型在复杂编程任务中的巨大潜力。
来源:https://mp.weixin.qq.com/s/OqyIUqTU-ASjODi9JpcyhA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 22:21 , Processed in 0.267555 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表