首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

[复制链接]
周大 发表于 2025-4-29 14:20:24 | 显示全部楼层 |阅读模式
华东师范大学与小红书团队合作提出Dynamic-LLaVA框架,旨在解决多模态大模型推理效率问题。通过优化视觉和文本token的稀疏化处理,该框架在不同推理阶段显著降低计算开销和显存占用,同时几乎不损失视觉理解和生成能力。实验数据显示,预填充阶段计算开销减少约75%,无KV Cache解码阶段减少约50%计算开销,有KV Cache解码阶段减少约50%显存占用。Dynamic-LLaVA在长文本生成任务中表现出色,为多模态大模型高效推理提供了新方向。
来源:https://mp.weixin.qq.com/s/IC2_tIdyHScAE53hX8pS0Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 06:00 , Processed in 0.434201 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表