开源VSA:实时更新知识的图像搜索助手
港中文MMLab、上海AI Lab和腾讯团队联合推出开源版Vision Search Assistant (VSA),基于视觉语言模型(VLM),融合Web搜索能力,实现实时知识更新。VSA在两张RTX3090显卡上即可运行,模型设计简单。实验结果显示,VSA在处理未见过的图像和新概念时表现出色,生成更准确、详细的答案。评估显示,VSA在事实性、相关性和支持性方面均优于其他模型,整体性能提升了6.4%。VSA的潜力不仅限于图像处理,未来还可应用于视频、3D模型和声音等领域。来源:https://mp.weixin.qq.com/s/xa0oS-LPnZAQqEyUozf_eg
页:
[1]