支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

周大发表于 2024-8-21 15:08:47

研究人员推出了一种名为LongVILA的新方案，旨在解决长上下文视觉语言模型（VLM）的全栈问题，包括系统设计、模型训练策略及数据集构建。该方案通过高效的多模态序列并行（MM-SP）框架，支持长上下文VLM的训练，实验表明其在长视频理解和字幕生成任务上的性能显著提升，能扩展至200万个token的上下文长度，为实际应用提供了有力支撑。
来源：https://mp.weixin.qq.com/s/T6eMi3DPq9_291bWqcFRgw

页: [1]

靠浦ai课堂's Archiver

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频