新数据集LLaVA-Video-178K助力视频多模态大模型发展

周大发表于 2024-10-21 14:33:19

字节跳动、南洋理工大学S-Lab和北京邮电大学合作开发了高质量的视频指令跟随数据集LLaVA-Video-178K，包含178K个视频和1.3M个指令跟随样本。该数据集通过GPT-4o生成详细的视频描述和多种类型的问答对，具有高帧率、多样化的任务和动态视频内容。基于此数据集，开发了新的视频多模态大模型LLaVA-Video，在多个视频基准测试中表现出色。
来源：https://mp.weixin.qq.com/s/d2jWyKsqTlk_9LSttESySw

页: [1]

靠浦ai课堂's Archiver

新数据集LLaVA-Video-178K助力视频多模态大模型发展