斯坦福发布HourVideo,评估长视频理解能力

[复制链接]
周大 发表于 2024-11-10 14:04:22 | 显示全部楼层 |阅读模式
斯坦福李飞飞和吴佳俊团队发布了HourVideo数据集,旨在评估多模态模型对长达一小时视频的理解能力。该数据集包含500个第一人称视角视频,涉及77种日常活动。人类专家在评估中的准确率达到85.0%,而现有最佳多模态模型的准确率仅为37.3%。数据集设计了18个子任务,涵盖总结、感知、视觉推理和导航等任务。生成过程包括视频筛选、候选MCQ生成、LLM优化与人工反馈、盲选和专家优化五个步骤。未来计划扩展基准测试,包括更多样化的视频来源和模态。
来源:https://mp.weixin.qq.com/s/_yi69foQdQzhOazgUqiiZA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-28 04:52 , Processed in 0.272919 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表