阿里开源ThinkSound音频模型：全球首个应用思维链技术的AI模型

周大发表于 2025-7-5 15:17:41

阿里通义实验室开源首个音频生成模型ThinkSound，首次将思维链技术引入音频生成领域，旨在提升视频转音频技术对画面动态与事件逻辑的理解能力。团队构建了超2531小时的多模态音频数据集AudioCoT进行训练，并采用结构化推理机制提升音画同步精度。该模型已在多项测试中表现优异，现面向开发者开放使用，未来有望应用于游戏与VR/AR等场景。
来源：https://tech.ifeng.com/c/8kicc9oSbUI

页: [1]

靠浦ai课堂's Archiver

阿里开源ThinkSound音频模型：全球首个应用思维链技术的AI模型