LaViDa：首个高速可控视觉-语言扩散模型，多模态理解性能超越自回归模型

周大发表于 2025-5-30 14:28:10

LaViDa是一款基于扩散模型的视觉-语言模型，具备高速且可控的特点，适用于视觉和文本联合处理任务。相比自回归模型，其非因果式注意力掩码和双向上下文建模能力显著提升了生成性能。实验显示，LaViDa在视觉理解、推理及OCR任务中表现突出，特别是在文本填空任务中达到100%约束满足率。此外，模型可通过调节离散化步数实现速度与质量的灵活权衡，为多模态任务提供了新思路。
来源：https://mp.weixin.qq.com/s/mMjqvEbkszECENtMzLXJlQ

页: [1]

靠浦ai课堂's Archiver

LaViDa：首个高速可控视觉-语言扩散模型，多模态理解性能超越自回归模型