LaViDa:首个高速可控视觉-语言扩散模型,多模态理解性能超越自回归模型
LaViDa是一款基于扩散模型的视觉-语言模型,具备高速且可控的特点,适用于视觉和文本联合处理任务。相比自回归模型,其非因果式注意力掩码和双向上下文建模能力显著提升了生成性能。实验显示,LaViDa在视觉理解、推理及OCR任务中表现突出,特别是在文本填空任务中达到100%约束满足率。此外,模型可通过调节离散化步数实现速度与质量的灵活权衡,为多模态任务提供了新思路。来源:https://mp.weixin.qq.com/s/mMjqvEbkszECENtMzLXJlQ
页:
[1]