理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

[复制链接]
周大 发表于 2024-12-31 15:51:09 | 显示全部楼层 |阅读模式
华为诺亚方舟实验室推出ILLUME,一个创新的统一多模态大模型。该模型采用“连续图像输入+离散图像输出”架构,仅用15M图文对数据预训练,在视觉理解、生成和编辑等任务上表现出色。ILLUME提出自提升多模态对齐策略,通过内省评估负样本实现理解和生成能力的协同进化。实验表明,ILLUME在多个评测集上达到SOTA水平,尤其在文档理解任务中表现突出,为多模态任务处理提供了全新解决方案。
来源:https://mp.weixin.qq.com/s/14AJwqltT-DAT39FYdu-DQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 06:58 , Processed in 0.264350 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表