Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

周大发表于 2024-12-18 14:56:31

马里兰大学和微软研究院联合提出Florence-VL，使用生成式视觉编码器Florence-2，通过生成式预训练统一多种视觉任务。Florence-VL采用深度-广度融合策略，整合多任务和多层级特征，实验结果显示其在多个多模态基准任务上表现优异，尤其是在文本提取任务上。
来源：https://mp.weixin.qq.com/s/sAf-FxUithvgA6noaew4sQ

页: [1]

靠浦ai课堂's Archiver

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息