周大 发表于 2024-12-18 14:56:31

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

马里兰大学和微软研究院联合提出Florence-VL,使用生成式视觉编码器Florence-2,通过生成式预训练统一多种视觉任务。Florence-VL采用深度-广度融合策略,整合多任务和多层级特征,实验结果显示其在多个多模态基准任务上表现优异,尤其是在文本提取任务上。
来源:https://mp.weixin.qq.com/s/sAf-FxUithvgA6noaew4sQ
页: [1]
查看完整版本: Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息