达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩

[复制链接]
周大 发表于 2025-2-14 20:48:27 | 显示全部楼层 |阅读模式
达摩院推出的Video LLaMA 3是7B大小的新一代多模态视频-语言模型,在通用视频理解、时间推理和长视频理解等方面超越多数基线模型。该模型以图像为中心构建,利用高质量图片文本数据,仅需3M视频文本数据就实现了出色的视频理解能力。它已在HuggingFace提供demo体验,展示了对图像和视频的精准理解。模型训练采用以图像为中心的范式,涵盖视觉编码器适配等四方面,并构建了700万图像-字幕对的数据集,确保数据质量和多样性。
来源:https://mp.weixin.qq.com/s/RgMLx5w9ozECXPGS7SgVbA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-14 23:26 , Processed in 0.288760 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表