斯坦福发布HourVideo，评估长视频理解能力

周大发表于 2024-11-10 14:04:22

斯坦福李飞飞和吴佳俊团队发布了HourVideo数据集，旨在评估多模态模型对长达一小时视频的理解能力。该数据集包含500个第一人称视角视频，涉及77种日常活动。人类专家在评估中的准确率达到85.0%，而现有最佳多模态模型的准确率仅为37.3%。数据集设计了18个子任务，涵盖总结、感知、视觉推理和导航等任务。生成过程包括视频筛选、候选MCQ生成、LLM优化与人工反馈、盲选和专家优化五个步骤。未来计划扩展基准测试，包括更多样化的视频来源和模态。
来源：https://mp.weixin.qq.com/s/_yi69foQdQzhOazgUqiiZA

页: [1]

靠浦ai课堂's Archiver

斯坦福发布HourVideo，评估长视频理解能力