开源VSA：实时更新知识的图像搜索助手

周大发表于 2024-11-12 14:16:40

港中文MMLab、上海AI Lab和腾讯团队联合推出开源版Vision Search Assistant (VSA)，基于视觉语言模型（VLM），融合Web搜索能力，实现实时知识更新。VSA在两张RTX3090显卡上即可运行，模型设计简单。实验结果显示，VSA在处理未见过的图像和新概念时表现出色，生成更准确、详细的答案。评估显示，VSA在事实性、相关性和支持性方面均优于其他模型，整体性能提升了6.4%。VSA的潜力不仅限于图像处理，未来还可应用于视频、3D模型和声音等领域。
来源：https://mp.weixin.qq.com/s/xa0oS-LPnZAQqEyUozf_eg

页: [1]

靠浦ai课堂's Archiver

开源VSA：实时更新知识的图像搜索助手