支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

[复制链接]
周大 发表于 2024-8-21 15:08:47 | 显示全部楼层 |阅读模式
研究人员推出了一种名为LongVILA的新方案,旨在解决长上下文视觉语言模型(VLM)的全栈问题,包括系统设计、模型训练策略及数据集构建。该方案通过高效的多模态序列并行(MM-SP)框架,支持长上下文VLM的训练,实验表明其在长视频理解和字幕生成任务上的性能显著提升,能扩展至200万个token的上下文长度,为实际应用提供了有力支撑。
来源:https://mp.weixin.qq.com/s/T6eMi3DPq9_291bWqcFRgw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 21:58 , Processed in 0.280087 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表