斯坦福、MIT等高校用IneqMath基准拷问AI逻辑,发现模型推理正确率最多降65.5%

[复制链接]
周大 发表于 昨天 15:07 | 显示全部楼层 |阅读模式
近日,斯坦福大学、MIT与加州大学伯克利分校的研究团队提出了一个名为IneqMath的基准,用于评估大语言模型在复杂数学推理中的严谨性。该基准通过将不等式证明拆解为界限估计和关系预测等子任务,并引入五种自动评审器,从多维度审查模型的推理过程。研究发现,尽管许多大模型能给出正确答案,但其推理过程正确率极低,暴露出严重逻辑缺陷,尤其是开源模型表现最弱,推理正确率不足6%。为推动AI推理能力的提升,团队还搭建了IneqMath排行榜,面向全球开发者开放评测,助力严谨数学论证的技术突破。
来源:https://mp.weixin.qq.com/s/N5kZkqDo1o40L9JIK98R9Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-24 01:18 , Processed in 0.272739 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表