清华&生数科技推出FreeAudio系统,实现90秒AI音效精准生成,入选ACM MM2025

[复制链接]
周大 发表于 2025-7-23 14:08:47 | 显示全部楼层 |阅读模式
清华大学与生数科技联合研发的FreeAudio系统实现文本到音频生成技术新突破,支持最长90秒音频的精确时间控制,且无需额外训练。该系统基于自然语言与时间提示,通过LLM时间规划与注意力控制模块,在AudioCondition、AudioCaps等测试集中表现出优于现有方法的时间对齐精度与音频质量。相比传统训练式方法,FreeAudio计算开销更低,已在ACM Multimedia 2025会议被录用为Oral论文。未来或将上线于Vidu平台,推动影视音效制作降本增效,并拓展至更长音频生成与空间音频方向。
来源:https://mp.weixin.qq.com/s/gwfbwuQ91AF-WCzSVmTxNQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 08:11 , Processed in 0.279728 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表