仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!
清华大学、香港大学和上海AI Lab联合提出了一种新的位置编码方法——Variable Vision Position Embedding (V2PE),以解决视觉-语言多模态大模型(VLMs)在长上下文场景下表现不佳的问题。V2PE通过为视觉token分配可变位置增量,有效解决了传统位置编码超出模型训练上下文窗口的限制,显著提升了模型在32K至1M长度超长上下文任务中的表现,甚至超越了最先进的闭源大模型。研究团队还构建了用于VLMs长上下文训练和评估的混合数据集,并引入了两个增强的长上下文多模态数据集Long-VQA和Long-MR,进一步验证了V2PE的有效性。来源:https://mp.weixin.qq.com/s/mD0WQe4KBrDVCJdTtpk5Bw
页:
[1]