腾讯ARC Lab等提出TokLIP，视觉Token注入CLIP语义，实现多模态高效统一

周大发表于 2025-8-26 14:05:56

腾讯ARC Lab联合多所高校提出新型视觉分词器TokLIP，结合离散视觉Token与CLIP语义，实现多模态理解与生成的统一。TokLIP支持端到端自回归训练，可无缝接入LLM框架，训练数据仅需同类方法的20%，在图像分类、图文检索、多模态理解和图像生成任务中均达SOTA。其核心创新在于为视觉token注入高层语义，提升跨模态对齐与任务泛化能力。实验表明，TokLIP在图像生成任务中FID更低，具备高效、轻量、统一等优势，已开源模型与代码。
来源：https://mp.weixin.qq.com/s/o9nXvLmpZ9gTtGTmZsQIRQ

页: [1]

靠浦ai课堂's Archiver

腾讯ARC Lab等提出TokLIP，视觉Token注入CLIP语义，实现多模态高效统一