上交联合美团发布TokenIT/TokenFD/TokenVL三大成果
上海交通大学联合美团推出三大核心成果——TokenIT数据集、TokenFD基座和TokenVL模型,填补了细粒度图文对齐领域的空白。TokenIT作为首个token级图文数据集,包含2000万图像和18亿Token-Mask对,规模远超现有数据集。TokenFD通过简化token embedding层实现图像与语言token的共享特征空间,大幅提升文本分割、理解及检索性能。TokenVL进一步打通模态GAP,显著提升多模态大模型在OCR、文档解析等任务中的表现,为商业化应用提供了新可能。来源:https://mp.weixin.qq.com/s/dL9wH2XAktxnupl5-K73Aw
页:
[1]