周大 发表于 2024-8-21 15:08:47

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

研究人员推出了一种名为LongVILA的新方案,旨在解决长上下文视觉语言模型(VLM)的全栈问题,包括系统设计、模型训练策略及数据集构建。该方案通过高效的多模态序列并行(MM-SP)框架,支持长上下文VLM的训练,实验表明其在长视频理解和字幕生成任务上的性能显著提升,能扩展至200万个token的上下文长度,为实际应用提供了有力支撑。
来源:https://mp.weixin.qq.com/s/T6eMi3DPq9_291bWqcFRgw
页: [1]
查看完整版本: 支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频