CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！

周大发表于 2025-4-7 14:24:37

LeCun等研究人员通过Web-SSL模型证明了自监督学习在多模态任务中的潜力，其性能可媲美甚至超越CLIP。研究显示，扩展模型和数据规模后，视觉SSL在VQA任务中（包括OCR和图表任务）能匹配语言监督方法的表现。Web-DINO系列模型（1B-7B参数）展现了强大的竞争力，不仅在多模态任务中表现突出，还在传统视觉任务中超越了CLIP。研究团队计划开源模型，推动社区进一步探索视觉SSL的潜力。
来源：https://mp.weixin.qq.com/s/FpisxJQ9AXHV26lHPwzy5A

页: [1]

靠浦ai课堂's Archiver

CLIP被淘汰了？LeCun谢赛宁新作，多模态训练无需语言监督更强！