周大 发表于 2025-3-7 15:36:19

北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

北京大学等机构联合推出DiffSensei,这是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。该框架通过创新机制实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。同时发布的MangaZero数据集包含4.3万页漫画和42.7万标注面板,填补了领域空白。实验显示,DiffSensei在角色一致性、文本跟随能力与图像质量上显著优于现有模型,现已开源并在Hugging Face提供资源,为漫画创作等领域提供了高效工具。
来源:https://mp.weixin.qq.com/s/eUmnHOc-PivtrYm1UlZPHQ
页: [1]
查看完整版本: 北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集