谷歌发布高难度AI基准BBEH

周大发表于 2025-2-28 14:58:46

随着AI能力提升，现有基准逐渐饱和。为准确评估AI模型能力，谷歌发布了高难度基准BBEH。该基准基于BBH构建，涵盖23个任务，旨在评估高阶推理能力。测试结果显示，即使是当前最强模型o3-mini(high)，得分也仅有44.8分，其他模型得分普遍低于10分。研究发现，推理模型在形式化问题上表现优异，但在处理复杂现实场景时收益有限。此外，模型大小和上下文长度对性能有一定影响，尤其在多跳推理或算法应用任务上，推理模型表现出更高的收益。
来源：https://mp.weixin.qq.com/s/mhWiMNUvpzDaqYyTEryBqw

页: [1]

靠浦ai课堂's Archiver

谷歌发布高难度AI基准BBEH