首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
华东师范大学与小红书团队合作提出Dynamic-LLaVA框架,旨在解决多模态大模型推理效率问题。通过优化视觉和文本token的稀疏化处理,该框架在不同推理阶段显著降低计算开销和显存占用,同时几乎不损失视觉理解和生成能力。实验数据显示,预填充阶段计算开销减少约75%,无KV Cache解码阶段减少约50%计算开销,有KV Cache解码阶段减少约50%显存占用。Dynamic-LLaVA在长文本生成任务中表现出色,为多模态大模型高效推理提供了新方向。来源:https://mp.weixin.qq.com/s/IC2_tIdyHScAE53hX8pS0Q
页:
[1]