理解生成协同促进？华为诺亚提出ILLUME，15M数据实现多模态理解生成一体化

周大发表于 2024-12-31 15:51:09

华为诺亚方舟实验室推出ILLUME，一个创新的统一多模态大模型。该模型采用“连续图像输入+离散图像输出”架构，仅用15M图文对数据预训练，在视觉理解、生成和编辑等任务上表现出色。ILLUME提出自提升多模态对齐策略，通过内省评估负样本实现理解和生成能力的协同进化。实验表明，ILLUME在多个评测集上达到SOTA水平，尤其在文档理解任务中表现突出，为多模态任务处理提供了全新解决方案。
来源：https://mp.weixin.qq.com/s/14AJwqltT-DAT39FYdu-DQ

		自动登录	找回密码
密码			立即注册

课程导航

理解生成协同促进？华为诺亚提出ILLUME，15M数据实现多模态理解生成一体化