CAL:通过视觉相关的 token 增强多模态对齐效果
武汉大学、字节跳动和中国科学院大学的研究团队提出了一种名为CAL的新方法,用于优化视觉语言模型的多模态对齐。CAL通过对比学习筛选出与图像高度相关的文本token,强化其在对齐过程中的作用。这种方法不仅提升了模型在OCR和图像描述任务上的性能,还增强了对噪声数据的鲁棒性,实现在图文错配的训练数据中仍能保持良好表现。来源:https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg
页:
[1]