周大 发表于 2025-7-7 13:36:10

Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型

中国科学院计算所团队提出多模态大模型 Stream-Omni,支持文本、视觉与语音多种组合的交互,并可在语音交互中同步输出文本结果。该模型采用层级维度语音-文本映射,仅需 2.3 万小时语音数据即可实现高效对齐,克服了传统拼接方法对大规模数据的依赖。实验表明其在语音理解与跨模态一致性方面表现优异,但语音表现力仍有待提升。
来源:https://mp.weixin.qq.com/s/VFUvLoJsT7rOVjhCvLLmBA
页: [1]
查看完整版本: Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型