阿里开源ThinkSound音频模型:全球首个应用思维链技术的AI模型

[复制链接]
周大 发表于 2025-7-5 15:17:41 | 显示全部楼层 |阅读模式
阿里通义实验室开源首个音频生成模型ThinkSound,首次将思维链技术引入音频生成领域,旨在提升视频转音频技术对画面动态与事件逻辑的理解能力。团队构建了超2531小时的多模态音频数据集AudioCoT进行训练,并采用结构化推理机制提升音画同步精度。该模型已在多项测试中表现优异,现面向开发者开放使用,未来有望应用于游戏与VR/AR等场景。
来源:https://tech.ifeng.com/c/8kicc9oSbUI

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 10:42 , Processed in 0.284837 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表