跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

周大发表于 2024-11-27 14:52:33

同济大学和微软团队提出的 LLM2CLIP 方法，通过少量数据微调大语言模型（LLM），显著提升了 CLIP 的多模态表示学习能力。LLM2CLIP 不仅在零样本检索任务上大幅提高 CLIP 性能，还在中文任务上超越了中文 CLIP。此外，该方法还显著提升了多模态大模型 LLaVA 的复杂视觉推理表现。代码和模型已公开，迅速吸引了社区的广泛关注。
来源：https://mp.weixin.qq.com/s/2cp9umZtOQdZLYwiB3e_5g

		自动登录	找回密码
密码			立即注册

课程导航

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本