达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
达摩院推出的Video LLaMA 3是7B大小的新一代多模态视频-语言模型,在通用视频理解、时间推理和长视频理解等方面超越多数基线模型。该模型以图像为中心构建,利用高质量图片文本数据,仅需3M视频文本数据就实现了出色的视频理解能力。它已在HuggingFace提供demo体验,展示了对图像和视频的精准理解。模型训练采用以图像为中心的范式,涵盖视觉编码器适配等四方面,并构建了700万图像-字幕对的数据集,确保数据质量和多样性。来源:https://mp.weixin.qq.com/s/RgMLx5w9ozECXPGS7SgVbA
页:
[1]