最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

[复制链接]
周大 发表于 2025-2-18 14:16:41 | 显示全部楼层 |阅读模式
Ola是一款由腾讯、清华大学和南洋理工大学联合开发的全模态语言模型。该模型通过渐进式模态对齐策略,逐步扩展支持图像、文本、音频和视频等多种模态。Ola在多个基准测试中展现出卓越性能,在7B参数规模下超越了多个主流多模态模型,特别是在图像(72.6%准确率)、视频(68.4%准确率)和音频理解任务中表现突出。项目已完全开源,为全模态领域提供了重要的研究基础。
来源:https://mp.weixin.qq.com/s/N4bjcHOejJudtxTFZVAXmg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 16:27 , Processed in 0.290124 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表