理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化
华为诺亚方舟实验室推出ILLUME,一个创新的统一多模态大模型。该模型采用“连续图像输入+离散图像输出”架构,仅用15M图文对数据预训练,在视觉理解、生成和编辑等任务上表现出色。ILLUME提出自提升多模态对齐策略,通过内省评估负样本实现理解和生成能力的协同进化。实验表明,ILLUME在多个评测集上达到SOTA水平,尤其在文档理解任务中表现突出,为多模态任务处理提供了全新解决方案。来源:https://mp.weixin.qq.com/s/14AJwqltT-DAT39FYdu-DQ
页:
[1]