达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

周大发表于 2025-2-14 20:48:27

达摩院推出的Video LLaMA 3是7B大小的新一代多模态视频-语言模型，在通用视频理解、时间推理和长视频理解等方面超越多数基线模型。该模型以图像为中心构建，利用高质量图片文本数据，仅需3M视频文本数据就实现了出色的视频理解能力。它已在HuggingFace提供demo体验，展示了对图像和视频的精准理解。模型训练采用以图像为中心的范式，涵盖视觉编码器适配等四方面，并构建了700万图像-字幕对的数据集，确保数据质量和多样性。
来源：https://mp.weixin.qq.com/s/RgMLx5w9ozECXPGS7SgVbA

		自动登录	找回密码
密码			立即注册

课程导航

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩