北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

周大发表于 2025-3-7 15:36:19

北京大学等机构联合推出DiffSensei，这是首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。该框架通过创新机制实现了对多角色外观、表情、动作的精确控制，并支持对话布局的灵活编码。同时发布的MangaZero数据集包含4.3万页漫画和42.7万标注面板，填补了领域空白。实验显示，DiffSensei在角色一致性、文本跟随能力与图像质量上显著优于现有模型，现已开源并在Hugging Face提供资源，为漫画创作等领域提供了高效工具。
来源：https://mp.weixin.qq.com/s/eUmnHOc-PivtrYm1UlZPHQ

页: [1]

靠浦ai课堂's Archiver

北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集