周大 发表于 2025-7-23 14:08:47

清华&生数科技推出FreeAudio系统,实现90秒AI音效精准生成,入选ACM MM2025

清华大学与生数科技联合研发的FreeAudio系统实现文本到音频生成技术新突破,支持最长90秒音频的精确时间控制,且无需额外训练。该系统基于自然语言与时间提示,通过LLM时间规划与注意力控制模块,在AudioCondition、AudioCaps等测试集中表现出优于现有方法的时间对齐精度与音频质量。相比传统训练式方法,FreeAudio计算开销更低,已在ACM Multimedia 2025会议被录用为Oral论文。未来或将上线于Vidu平台,推动影视音效制作降本增效,并拓展至更长音频生成与空间音频方向。
来源:https://mp.weixin.qq.com/s/gwfbwuQ91AF-WCzSVmTxNQ
页: [1]
查看完整版本: 清华&生数科技推出FreeAudio系统,实现90秒AI音效精准生成,入选ACM MM2025