最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

[复制链接]
周大 发表于 2024-10-29 15:29:01 | 显示全部楼层 |阅读模式
智源研究院联合多所高校推出超长视频理解大模型Video-XL,该模型利用语言模型对长视觉序列进行压缩,保留了短视频理解能力,同时在长视频理解上展现出色泛化能力。与同等参数规模的模型相比,Video-XL在多个长视频理解基准评测中排名第一,并在“海中捞针”任务中达到近95%的准确率。仅需一块80G显存的显卡即可处理2048帧输入,模型代码已开源,未来有望在电影摘要、视频异常检测等场景中广泛应用。
来源:https://mp.weixin.qq.com/s/kGIGBLH6vpeNwzqBcRREKA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 20:17 , Processed in 0.271761 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表