周大 发表于 2025-6-3 14:03:38

智源研究院开源轻量级超长视频理解模型Video-XL-2,可单卡高效处理万帧视频

智源研究院联合上海交通大学发布了新一代超长视频理解模型 Video-XL-2,该模型在长视频理解任务中表现出色,于 MLVU、Video-MME 和 LVBench 等主流评测基准上超越现有轻量级开源模型,并接近甚至超越参数规模达 720 亿的大模型。Video-XL-2 支持单张显卡处理万帧级视频输入,编码 2048 帧视频仅需 12 秒,显著提升了处理效率和适用范围。通过分段式预装填和双粒度 KV 解码机制,模型实现了高效的推理性能。目前,Video-XL-2 的模型权重已全面开放,未来有望广泛应用于影视内容分析、异常行为检测等实际场景。
来源:https://mp.weixin.qq.com/s/sWtrNIaWcbbiM4FpQwXvnw
页: [1]
查看完整版本: 智源研究院开源轻量级超长视频理解模型Video-XL-2,可单卡高效处理万帧视频