免训练框架 VL-SAM 实现高效开放式目标检测与分割
北京大学王选计算机研究所提出了一种无需训练的开放式目标检测和分割框架VL-SAM。该框架结合了视觉语言模型(VLM)和分割基础模型(SAM),通过注意力图作为提示进行连接。在长尾数据集LVIS和自动驾驶corner case数据集CODA上,VL-SAM均取得了优异的表现,展示了强大的模型泛化能力。这一成果已被NeurIPS 2024录用,有望在实际应用中发挥重要作用。来源:https://mp.weixin.qq.com/s/Cv0ldbjJkl_lv89ZZBOn3Q
页:
[1]