北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

[复制链接]
周大 发表于 2025-3-7 15:36:19 | 显示全部楼层 |阅读模式
北京大学等机构联合推出DiffSensei,这是首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。该框架通过创新机制实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。同时发布的MangaZero数据集包含4.3万页漫画和42.7万标注面板,填补了领域空白。实验显示,DiffSensei在角色一致性、文本跟随能力与图像质量上显著优于现有模型,现已开源并在Hugging Face提供资源,为漫画创作等领域提供了高效工具。
来源:https://mp.weixin.qq.com/s/eUmnHOc-PivtrYm1UlZPHQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 02:11 , Processed in 0.335152 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表