周大 发表于 2024-11-9 13:51:13

新基准NaturalBench挑战视觉语言模型自然图像理解能力

卡内基梅隆大学和华盛顿大学的研究团队推出NaturalBench,一项以视觉为核心的VQA基准,旨在评估视觉语言模型的真实视觉理解能力。研究发现,现有模型在处理自然图像时存在明显不足,其在流行VQA基准上的良好表现主要依赖于语言偏见。NaturalBench数据集包含10,000个高质量VQA样本,采用更严格的评估指标Group Accuracy (G-Acc),揭示了模型在视觉理解上的局限性。研究团队还提出了改进模型的方法,包括减少盲猜行为和提升组合性思维能力。
来源:https://mp.weixin.qq.com/s/A7G3616DUJVtx1JeSAoo8g
页: [1]
查看完整版本: 新基准NaturalBench挑战视觉语言模型自然图像理解能力