周大 发表于 2024-7-2 16:12:08

Prism框架:拆分VLM,小模型也能实现高效视觉推理

上海AI Lab与高校合作研发的Prism框架,创新性地将视觉语言模型的感知和推理功能分离,提升了模型处理视觉语言任务的效率。实验表明,即使2B参数量的VLM结合ChatGPT,其性能也能媲美20B参数量的VLM。此外,研究揭示了小规模VLM的性能瓶颈在于推理能力,而通过大型LLM可以改善这一问题。PrismCaptioner作为专注感知的轻量级模型,与LLM集成后,展现出与更大规模模型相当的效能。
来源:https://mp.weixin.qq.com/s/wiTLIio53j7fEZBBkUAZ-A
页: [1]
查看完整版本: Prism框架:拆分VLM,小模型也能实现高效视觉推理