清华&生数科技推出FreeAudio系统，实现90秒AI音效精准生成，入选ACM MM2025

周大发表于 2025-7-23 14:08:47

清华大学与生数科技联合研发的FreeAudio系统实现文本到音频生成技术新突破，支持最长90秒音频的精确时间控制，且无需额外训练。该系统基于自然语言与时间提示，通过LLM时间规划与注意力控制模块，在AudioCondition、AudioCaps等测试集中表现出优于现有方法的时间对齐精度与音频质量。相比传统训练式方法，FreeAudio计算开销更低，已在ACM Multimedia 2025会议被录用为Oral论文。未来或将上线于Vidu平台，推动影视音效制作降本增效，并拓展至更长音频生成与空间音频方向。
来源：https://mp.weixin.qq.com/s/gwfbwuQ91AF-WCzSVmTxNQ

页: [1]

靠浦ai课堂's Archiver

清华&生数科技推出FreeAudio系统，实现90秒AI音效精准生成，入选ACM MM2025