周大 发表于 2025-2-28 14:58:46

谷歌发布高难度AI基准BBEH

随着AI能力提升,现有基准逐渐饱和。为准确评估AI模型能力,谷歌发布了高难度基准BBEH。该基准基于BBH构建,涵盖23个任务,旨在评估高阶推理能力。测试结果显示,即使是当前最强模型o3-mini(high),得分也仅有44.8分,其他模型得分普遍低于10分。研究发现,推理模型在形式化问题上表现优异,但在处理复杂现实场景时收益有限。此外,模型大小和上下文长度对性能有一定影响,尤其在多跳推理或算法应用任务上,推理模型表现出更高的收益。
来源:https://mp.weixin.qq.com/s/mhWiMNUvpzDaqYyTEryBqw
页: [1]
查看完整版本: 谷歌发布高难度AI基准BBEH