斯坦福发布HourVideo,评估长视频理解能力
斯坦福李飞飞和吴佳俊团队发布了HourVideo数据集,旨在评估多模态模型对长达一小时视频的理解能力。该数据集包含500个第一人称视角视频,涉及77种日常活动。人类专家在评估中的准确率达到85.0%,而现有最佳多模态模型的准确率仅为37.3%。数据集设计了18个子任务,涵盖总结、感知、视觉推理和导航等任务。生成过程包括视频筛选、候选MCQ生成、LLM优化与人工反馈、盲选和专家优化五个步骤。未来计划扩展基准测试,包括更多样化的视频来源和模态。来源:https://mp.weixin.qq.com/s/_yi69foQdQzhOazgUqiiZA
页:
[1]