Stream-Omni：同时支持各种模态组合交互的文本-视觉-语音多模态大模型

周大发表于 2025-7-7 13:36:10

中国科学院计算所团队提出多模态大模型 Stream-Omni，支持文本、视觉与语音多种组合的交互，并可在语音交互中同步输出文本结果。该模型采用层级维度语音-文本映射，仅需 2.3 万小时语音数据即可实现高效对齐，克服了传统拼接方法对大规模数据的依赖。实验表明其在语音理解与跨模态一致性方面表现优异，但语音表现力仍有待提升。
来源：https://mp.weixin.qq.com/s/VFUvLoJsT7rOVjhCvLLmBA

页: [1]

靠浦ai课堂's Archiver

Stream-Omni：同时支持各种模态组合交互的文本-视觉-语音多模态大模型