斯坦福、MIT等高校用IneqMath基准拷问AI逻辑，发现模型推理正确率最多降65.5%

周大发表于 2025-6-23 15:07:35

近日，斯坦福大学、MIT与加州大学伯克利分校的研究团队提出了一个名为IneqMath的基准，用于评估大语言模型在复杂数学推理中的严谨性。该基准通过将不等式证明拆解为界限估计和关系预测等子任务，并引入五种自动评审器，从多维度审查模型的推理过程。研究发现，尽管许多大模型能给出正确答案，但其推理过程正确率极低，暴露出严重逻辑缺陷，尤其是开源模型表现最弱，推理正确率不足6%。为推动AI推理能力的提升，团队还搭建了IneqMath排行榜，面向全球开发者开放评测，助力严谨数学论证的技术突破。
来源：https://mp.weixin.qq.com/s/N5kZkqDo1o40L9JIK98R9Q

		自动登录	找回密码
密码			立即注册

课程导航

斯坦福、MIT等高校用IneqMath基准拷问AI逻辑，发现模型推理正确率最多降65.5%