LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

[复制链接]
周大 发表于 2025-2-6 18:03:41 | 显示全部楼层 |阅读模式
中国科学院计算技术研究所推出高效多模态大模型LLaVA-Mini,将每张图像所需视觉tokens压缩至1个,大幅提升了图像和视频理解的效率。相比现有模型,LLaVA-Mini计算效率提升77%,响应延时降至40毫秒,显存占用从360 MB/图像降至0.6 MB/图像。该模型在多个图像和视频理解基准测试中表现出色,特别是在长视频处理方面具有显著优势。尽管存在处理精细化视觉任务时性能受影响的局限,但其灵活性允许根据具体场景调整视觉tokens数量以平衡性能与效率。
来源:https://mp.weixin.qq.com/s/tlFW5FSVWeFri6JfeRxxWw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 03:11 , Processed in 0.281990 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表