新基准NaturalBench挑战视觉语言模型自然图像理解能力

周大发表于 2024-11-9 13:51:13

卡内基梅隆大学和华盛顿大学的研究团队推出NaturalBench，一项以视觉为核心的VQA基准，旨在评估视觉语言模型的真实视觉理解能力。研究发现，现有模型在处理自然图像时存在明显不足，其在流行VQA基准上的良好表现主要依赖于语言偏见。NaturalBench数据集包含10,000个高质量VQA样本，采用更严格的评估指标Group Accuracy (G-Acc)，揭示了模型在视觉理解上的局限性。研究团队还提出了改进模型的方法，包括减少盲猜行为和提升组合性思维能力。
来源：https://mp.weixin.qq.com/s/A7G3616DUJVtx1JeSAoo8g

页: [1]

靠浦ai课堂's Archiver

新基准NaturalBench挑战视觉语言模型自然图像理解能力