最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造
Ola是一款由腾讯、清华大学和南洋理工大学联合开发的全模态语言模型。该模型通过渐进式模态对齐策略,逐步扩展支持图像、文本、音频和视频等多种模态。Ola在多个基准测试中展现出卓越性能,在7B参数规模下超越了多个主流多模态模型,特别是在图像(72.6%准确率)、视频(68.4%准确率)和音频理解任务中表现突出。项目已完全开源,为全模态领域提供了重要的研究基础。来源:https://mp.weixin.qq.com/s/N4bjcHOejJudtxTFZVAXmg
页:
[1]