Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型
中国科学院计算所团队提出多模态大模型 Stream-Omni,支持文本、视觉与语音多种组合的交互,并可在语音交互中同步输出文本结果。该模型采用层级维度语音-文本映射,仅需 2.3 万小时语音数据即可实现高效对齐,克服了传统拼接方法对大规模数据的依赖。实验表明其在语音理解与跨模态一致性方面表现优异,但语音表现力仍有待提升。来源:https://mp.weixin.qq.com/s/VFUvLoJsT7rOVjhCvLLmBA
页:
[1]