4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3
阿里mPLUG团队发布mPLUG-Owl3,一款高效多模态大模型,能快速理解多图和长视频。该模型First Token Latency较LLaVA-Next-Interleave减少6倍,单张A100处理图像数量提升至400张,4秒即可理解2小时电影。mPLUG-Owl3在多模态领域多个基准测试中取得最佳成绩,通过引入Hyper Attention模块和多模态交错的旋转位置编码等技术,显著提升了多模态交互效率。来源:https://mp.weixin.qq.com/s/QmxsPMe0wDElJwaUvwd9Tw
页:
[1]