腾讯ARC Lab等提出TokLIP,视觉Token注入CLIP语义,实现多模态高效统一

[复制链接]
周大 发表于 2025-8-26 14:05:56 | 显示全部楼层 |阅读模式
腾讯ARC Lab联合多所高校提出新型视觉分词器TokLIP,结合离散视觉Token与CLIP语义,实现多模态理解与生成的统一。TokLIP支持端到端自回归训练,可无缝接入LLM框架,训练数据仅需同类方法的20%,在图像分类、图文检索、多模态理解和图像生成任务中均达SOTA。其核心创新在于为视觉token注入高层语义,提升跨模态对齐与任务泛化能力。实验表明,TokLIP在图像生成任务中FID更低,具备高效、轻量、统一等优势,已开源模型与代码。
来源:https://mp.weixin.qq.com/s/o9nXvLmpZ9gTtGTmZsQIRQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:40 , Processed in 0.293941 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表