跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

[复制链接]
周大 发表于 2024-11-27 14:52:33 | 显示全部楼层 |阅读模式
同济大学和微软团队提出的 LLM2CLIP 方法,通过少量数据微调大语言模型(LLM),显著提升了 CLIP 的多模态表示学习能力。LLM2CLIP 不仅在零样本检索任务上大幅提高 CLIP 性能,还在中文任务上超越了中文 CLIP。此外,该方法还显著提升了多模态大模型 LLaVA 的复杂视觉推理表现。代码和模型已公开,迅速吸引了社区的广泛关注。
来源:https://mp.weixin.qq.com/s/2cp9umZtOQdZLYwiB3e_5g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-25 10:24 , Processed in 0.280959 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表