CAL:通过视觉相关的 token 增强多模态对齐效果

[复制链接]
周大 发表于 2024-6-17 15:44:00 | 显示全部楼层 |阅读模式
武汉大学、字节跳动和中国科学院大学的研究团队提出了一种名为CAL的新方法,用于优化视觉语言模型的多模态对齐。CAL通过对比学习筛选出与图像高度相关的文本token,强化其在对齐过程中的作用。这种方法不仅提升了模型在OCR和图像描述任务上的性能,还增强了对噪声数据的鲁棒性,实现在图文错配的训练数据中仍能保持良好表现。
来源:https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-13 12:16 , Processed in 0.293947 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表