周大 发表于 2024-8-19 15:39:10

4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3

阿里mPLUG团队发布mPLUG-Owl3,一款高效多模态大模型,能快速理解多图和长视频。该模型First Token Latency较LLaVA-Next-Interleave减少6倍,单张A100处理图像数量提升至400张,4秒即可理解2小时电影。mPLUG-Owl3在多模态领域多个基准测试中取得最佳成绩,通过引入Hyper Attention模块和多模态交错的旋转位置编码等技术,显著提升了多模态交互效率。
来源:https://mp.weixin.qq.com/s/QmxsPMe0wDElJwaUvwd9Tw
页: [1]
查看完整版本: 4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3