最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

周大发表于 2025-2-18 14:16:41

Ola是一款由腾讯、清华大学和南洋理工大学联合开发的全模态语言模型。该模型通过渐进式模态对齐策略，逐步扩展支持图像、文本、音频和视频等多种模态。Ola在多个基准测试中展现出卓越性能，在7B参数规模下超越了多个主流多模态模型，特别是在图像（72.6%准确率）、视频（68.4%准确率）和音频理解任务中表现突出。项目已完全开源，为全模态领域提供了重要的研究基础。
来源：https://mp.weixin.qq.com/s/N4bjcHOejJudtxTFZVAXmg

页: [1]

靠浦ai课堂's Archiver

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造