Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
马里兰大学和微软研究院联合提出Florence-VL,使用生成式视觉编码器Florence-2,通过生成式预训练统一多种视觉任务。Florence-VL采用深度-广度融合策略,整合多任务和多层级特征,实验结果显示其在多个多模态基准任务上表现优异,尤其是在文本提取任务上。
来源:https://mp.weixin.qq.com/s/sAf-FxUithvgA6noaew4sQ

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 11:33 , Processed in 0.267266 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表