Prism框架:拆分VLM,小模型也能实现高效视觉推理

[复制链接]
周大 发表于 2024-7-2 16:12:08 | 显示全部楼层 |阅读模式
上海AI Lab与高校合作研发的Prism框架,创新性地将视觉语言模型的感知和推理功能分离,提升了模型处理视觉语言任务的效率。实验表明,即使2B参数量的VLM结合ChatGPT,其性能也能媲美20B参数量的VLM。此外,研究揭示了小规模VLM的性能瓶颈在于推理能力,而通过大型LLM可以改善这一问题。PrismCaptioner作为专注感知的轻量级模型,与LLM集成后,展现出与更大规模模型相当的效能。
来源:https://mp.weixin.qq.com/s/wiTLIio53j7fEZBBkUAZ-A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 10:06 , Processed in 0.289643 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表