Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型

[复制链接]
周大 发表于 2025-7-7 13:36:10 | 显示全部楼层 |阅读模式
中国科学院计算所团队提出多模态大模型 Stream-Omni,支持文本、视觉与语音多种组合的交互,并可在语音交互中同步输出文本结果。该模型采用层级维度语音-文本映射,仅需 2.3 万小时语音数据即可实现高效对齐,克服了传统拼接方法对大规模数据的依赖。实验表明其在语音理解与跨模态一致性方面表现优异,但语音表现力仍有待提升。
来源:https://mp.weixin.qq.com/s/VFUvLoJsT7rOVjhCvLLmBA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 09:13 , Processed in 0.284083 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表