周大 发表于 2024-11-27 14:52:33

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

同济大学和微软团队提出的 LLM2CLIP 方法,通过少量数据微调大语言模型(LLM),显著提升了 CLIP 的多模态表示学习能力。LLM2CLIP 不仅在零样本检索任务上大幅提高 CLIP 性能,还在中文任务上超越了中文 CLIP。此外,该方法还显著提升了多模态大模型 LLaVA 的复杂视觉推理表现。代码和模型已公开,迅速吸引了社区的广泛关注。
来源:https://mp.weixin.qq.com/s/2cp9umZtOQdZLYwiB3e_5g
页: [1]
查看完整版本: 跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本