首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

周大发表于 2025-4-29 14:20:24

华东师范大学与小红书团队合作提出Dynamic-LLaVA框架，旨在解决多模态大模型推理效率问题。通过优化视觉和文本token的稀疏化处理，该框架在不同推理阶段显著降低计算开销和显存占用，同时几乎不损失视觉理解和生成能力。实验数据显示，预填充阶段计算开销减少约75%，无KV Cache解码阶段减少约50%计算开销，有KV Cache解码阶段减少约50%显存占用。Dynamic-LLaVA在长文本生成任务中表现出色，为多模态大模型高效推理提供了新方向。
来源：https://mp.weixin.qq.com/s/IC2_tIdyHScAE53hX8pS0Q

页: [1]

靠浦ai课堂's Archiver

首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%