7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

周大发表于 2024-7-14 16:50:55

LMMs-Lab与南洋理工大学的研究人员推出LongVA模型，解决了现有AI模型处理长视频的挑战。通过创新的“长上下文迁移”技术，LongVA无需长视频训练就能理解超过20万个视觉token的视频，打破了现有模型的局限。在Video-MME和MLVU基准测试中，LongVA展现出卓越性能，成为开源模型中的佼佼者。此外，LongVA在V-NIAH测试中的表现证明了其在长视频理解上的强大能力。
来源：https://mp.weixin.qq.com/s/62rMYx94dbz1HwDkZclXtA

页: [1]

靠浦ai课堂's Archiver

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单