Prism框架：拆分VLM，小模型也能实现高效视觉推理

周大发表于 2024-7-2 16:12:08

上海AI Lab与高校合作研发的Prism框架，创新性地将视觉语言模型的感知和推理功能分离，提升了模型处理视觉语言任务的效率。实验表明，即使2B参数量的VLM结合ChatGPT，其性能也能媲美20B参数量的VLM。此外，研究揭示了小规模VLM的性能瓶颈在于推理能力，而通过大型LLM可以改善这一问题。PrismCaptioner作为专注感知的轻量级模型，与LLM集成后，展现出与更大规模模型相当的效能。
来源：https://mp.weixin.qq.com/s/wiTLIio53j7fEZBBkUAZ-A

页: [1]

靠浦ai课堂's Archiver

Prism框架：拆分VLM，小模型也能实现高效视觉推理