周大 发表于 2025-7-5 15:17:41

阿里开源ThinkSound音频模型:全球首个应用思维链技术的AI模型

阿里通义实验室开源首个音频生成模型ThinkSound,首次将思维链技术引入音频生成领域,旨在提升视频转音频技术对画面动态与事件逻辑的理解能力。团队构建了超2531小时的多模态音频数据集AudioCoT进行训练,并采用结构化推理机制提升音画同步精度。该模型已在多项测试中表现优异,现面向开发者开放使用,未来有望应用于游戏与VR/AR等场景。
来源:https://tech.ifeng.com/c/8kicc9oSbUI
页: [1]
查看完整版本: 阿里开源ThinkSound音频模型:全球首个应用思维链技术的AI模型