LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

周大发表于 2025-2-6 18:03:41

中国科学院计算技术研究所推出高效多模态大模型LLaVA-Mini，将每张图像所需视觉tokens压缩至1个，大幅提升了图像和视频理解的效率。相比现有模型，LLaVA-Mini计算效率提升77%，响应延时降至40毫秒，显存占用从360 MB/图像降至0.6 MB/图像。该模型在多个图像和视频理解基准测试中表现出色，特别是在长视频处理方面具有显著优势。尽管存在处理精细化视觉任务时性能受影响的局限，但其灵活性允许根据具体场景调整视觉tokens数量以平衡性能与效率。
来源：https://mp.weixin.qq.com/s/tlFW5FSVWeFri6JfeRxxWw

页: [1]

靠浦ai课堂's Archiver

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存