周大 发表于 2025-4-7 14:34:34

MoCha:开启自动化多轮对话电影生成新时代

加拿大滑铁卢大学与Meta GenAI合作开发了MoCha,这是一种仅需语音和文本输入即可生成完整角色对话视频的方法。MoCha支持多角色、多轮对话生成,引入了Speech-Video Window Attention机制以提升音视频对齐效果,并通过联合训练策略解决数据稀缺问题。此外,其设计的结构化提示模板实现了多角色动态对话生成,在真实感、表现力、可控性等方面表现出优越性能,为自动化电影叙事生成提供了新方向。该研究已在X平台引发广泛关注,相关帖子浏览量超百万。
来源:https://mp.weixin.qq.com/s/stb-n4PuBSFHiuJ3qdYvwA
页: [1]
查看完整版本: MoCha:开启自动化多轮对话电影生成新时代