谷歌发布高难度AI基准BBEH

[复制链接]
周大 发表于 2025-2-28 14:58:46 | 显示全部楼层 |阅读模式
随着AI能力提升,现有基准逐渐饱和。为准确评估AI模型能力,谷歌发布了高难度基准BBEH。该基准基于BBH构建,涵盖23个任务,旨在评估高阶推理能力。测试结果显示,即使是当前最强模型o3-mini(high),得分也仅有44.8分,其他模型得分普遍低于10分。研究发现,推理模型在形式化问题上表现优异,但在处理复杂现实场景时收益有限。此外,模型大小和上下文长度对性能有一定影响,尤其在多跳推理或算法应用任务上,推理模型表现出更高的收益。
来源:https://mp.weixin.qq.com/s/mhWiMNUvpzDaqYyTEryBqw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 05:20 , Processed in 0.274754 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表