周大 发表于 2024-4-19 19:38:12

多模态数学题解题能力评估新标准

新推出的MathVerse测评benchmark针对多模态大语言模型的数学解题能力进行深入评估,揭示了当前benchmark存在的关键问题,模型依赖文本胜过视觉,并提出了全新的CoT评估策略。
来源:https://mp.weixin.qq.com/s/gEcCi92PdMMCItFII84lcw
页: [1]
查看完整版本: 多模态数学题解题能力评估新标准