MoCha:开启自动化多轮对话电影生成新时代

[复制链接]
周大 发表于 2025-4-7 14:34:34 | 显示全部楼层 |阅读模式
加拿大滑铁卢大学与Meta GenAI合作开发了MoCha,这是一种仅需语音和文本输入即可生成完整角色对话视频的方法。MoCha支持多角色、多轮对话生成,引入了Speech-Video Window Attention机制以提升音视频对齐效果,并通过联合训练策略解决数据稀缺问题。此外,其设计的结构化提示模板实现了多角色动态对话生成,在真实感、表现力、可控性等方面表现出优越性能,为自动化电影叙事生成提供了新方向。该研究已在X平台引发广泛关注,相关帖子浏览量超百万。
来源:https://mp.weixin.qq.com/s/stb-n4PuBSFHiuJ3qdYvwA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 20:59 , Processed in 0.286319 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表