7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

[复制链接]
周大 发表于 2024-7-14 16:50:55 | 显示全部楼层 |阅读模式
LMMs-Lab与南洋理工大学的研究人员推出LongVA模型,解决了现有AI模型处理长视频的挑战。通过创新的“长上下文迁移”技术,LongVA无需长视频训练就能理解超过20万个视觉token的视频,打破了现有模型的局限。在Video-MME和MLVU基准测试中,LongVA展现出卓越性能,成为开源模型中的佼佼者。此外,LongVA在V-NIAH测试中的表现证明了其在长视频理解上的强大能力。
来源:https://mp.weixin.qq.com/s/62rMYx94dbz1HwDkZclXtA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 07:14 , Processed in 0.299580 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表