周大 发表于 2024-10-25 14:59:45

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

上海AI Lab团队提出全新原生多模态大模型Mono-InternVL,将视觉感知和多模态理解集成到大语言模型中,无需额外的视觉编码器。与非原生模型相比,首个单词延迟最多降低67%,多个评测数据集上达到SOTA水准。1.8B参数模型在16个基准上性能大幅超越7B参数的EVE,平均提升15.5%。部署实验显示,与模块化模型相比,首个token延迟减少67%,整体吞吐量提高31%。
来源:https://mp.weixin.qq.com/s/FmjG0Gp5ow7mm2Vzd9ppPg
页: [1]
查看完整版本: 开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品