仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！

周大发表于 2025-1-15 14:57:55

清华大学、香港大学和上海AI Lab联合提出了一种新的位置编码方法——Variable Vision Position Embedding (V2PE)，以解决视觉-语言多模态大模型（VLMs）在长上下文场景下表现不佳的问题。V2PE通过为视觉token分配可变位置增量，有效解决了传统位置编码超出模型训练上下文窗口的限制，显著提升了模型在32K至1M长度超长上下文任务中的表现，甚至超越了最先进的闭源大模型。研究团队还构建了用于VLMs长上下文训练和评估的混合数据集，并引入了两个增强的长上下文多模态数据集Long-VQA和Long-MR，进一步验证了V2PE的有效性。
来源：https://mp.weixin.qq.com/s/mD0WQe4KBrDVCJdTtpk5Bw

页: [1]

靠浦ai课堂's Archiver

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！