腾讯ARC Lab等提出TokLIP,视觉Token注入CLIP语义,实现多模态高效统一
腾讯ARC Lab联合多所高校提出新型视觉分词器TokLIP,结合离散视觉Token与CLIP语义,实现多模态理解与生成的统一。TokLIP支持端到端自回归训练,可无缝接入LLM框架,训练数据仅需同类方法的20%,在图像分类、图文检索、多模态理解和图像生成任务中均达SOTA。其核心创新在于为视觉token注入高层语义,提升跨模态对齐与任务泛化能力。实验表明,TokLIP在图像生成任务中FID更低,具备高效、轻量、统一等优势,已开源模型与代码。来源:https://mp.weixin.qq.com/s/o9nXvLmpZ9gTtGTmZsQIRQ
页:
[1]