LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存
中国科学院计算技术研究所推出高效多模态大模型LLaVA-Mini,将每张图像所需视觉tokens压缩至1个,大幅提升了图像和视频理解的效率。相比现有模型,LLaVA-Mini计算效率提升77%,响应延时降至40毫秒,显存占用从360 MB/图像降至0.6 MB/图像。该模型在多个图像和视频理解基准测试中表现出色,特别是在长视频处理方面具有显著优势。尽管存在处理精细化视觉任务时性能受影响的局限,但其灵活性允许根据具体场景调整视觉tokens数量以平衡性能与效率。来源:https://mp.weixin.qq.com/s/tlFW5FSVWeFri6JfeRxxWw
页:
[1]