字节视频生成新突破!Phantom搞定多人物/主体一致性
字节智能创作团队推出主体一致性视频生成模型Phantom,该模型可精准抓取人物、物品等多主体关键特征并自然融入视频,在人脸ID一致性等方面具优势。Phantom支持单、多参考主体视频生成,高度还原细节。它基于DiT框架,通过构建文本-图片-视频三元组数据学习模态对齐,实现主体到视频的生成,平衡文本和图像提示,为视频生成提供新思路。来源:https://mp.weixin.qq.com/s/2dAdu3sN4LpMvSzheHQdCw
页:
[1]