7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
LMMs-Lab与南洋理工大学的研究人员推出LongVA模型,解决了现有AI模型处理长视频的挑战。通过创新的“长上下文迁移”技术,LongVA无需长视频训练就能理解超过20万个视觉token的视频,打破了现有模型的局限。在Video-MME和MLVU基准测试中,LongVA展现出卓越性能,成为开源模型中的佼佼者。此外,LongVA在V-NIAH测试中的表现证明了其在长视频理解上的强大能力。来源:https://mp.weixin.qq.com/s/62rMYx94dbz1HwDkZclXtA
页:
[1]