斯坦福、MIT等高校用IneqMath基准拷问AI逻辑,发现模型推理正确率最多降65.5%
近日,斯坦福大学、MIT与加州大学伯克利分校的研究团队提出了一个名为IneqMath的基准,用于评估大语言模型在复杂数学推理中的严谨性。该基准通过将不等式证明拆解为界限估计和关系预测等子任务,并引入五种自动评审器,从多维度审查模型的推理过程。研究发现,尽管许多大模型能给出正确答案,但其推理过程正确率极低,暴露出严重逻辑缺陷,尤其是开源模型表现最弱,推理正确率不足6%。为推动AI推理能力的提升,团队还搭建了IneqMath排行榜,面向全球开发者开放评测,助力严谨数学论证的技术突破。来源:https://mp.weixin.qq.com/s/N5kZkqDo1o40L9JIK98R9Q
页:
[1]