Prism框架:拆分VLM,小模型也能实现高效视觉推理
上海AI Lab与高校合作研发的Prism框架,创新性地将视觉语言模型的感知和推理功能分离,提升了模型处理视觉语言任务的效率。实验表明,即使2B参数量的VLM结合ChatGPT,其性能也能媲美20B参数量的VLM。此外,研究揭示了小规模VLM的性能瓶颈在于推理能力,而通过大型LLM可以改善这一问题。PrismCaptioner作为专注感知的轻量级模型,与LLM集成后,展现出与更大规模模型相当的效能。来源:https://mp.weixin.qq.com/s/wiTLIio53j7fEZBBkUAZ-A
页:
[1]