智源研究院开源轻量级超长视频理解模型Video-XL-2，可单卡高效处理万帧视频

周大发表于 2025-6-3 14:03:38

智源研究院联合上海交通大学发布了新一代超长视频理解模型 Video-XL-2，该模型在长视频理解任务中表现出色，于 MLVU、Video-MME 和 LVBench 等主流评测基准上超越现有轻量级开源模型，并接近甚至超越参数规模达 720 亿的大模型。Video-XL-2 支持单张显卡处理万帧级视频输入，编码 2048 帧视频仅需 12 秒，显著提升了处理效率和适用范围。通过分段式预装填和双粒度 KV 解码机制，模型实现了高效的推理性能。目前，Video-XL-2 的模型权重已全面开放，未来有望广泛应用于影视内容分析、异常行为检测等实际场景。
来源：https://mp.weixin.qq.com/s/sWtrNIaWcbbiM4FpQwXvnw

页: [1]

靠浦ai课堂's Archiver

智源研究院开源轻量级超长视频理解模型Video-XL-2，可单卡高效处理万帧视频