CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!

[复制链接]
周大 发表于 2025-4-7 14:24:37 | 显示全部楼层 |阅读模式
LeCun等研究人员通过Web-SSL模型证明了自监督学习在多模态任务中的潜力,其性能可媲美甚至超越CLIP。研究显示,扩展模型和数据规模后,视觉SSL在VQA任务中(包括OCR和图表任务)能匹配语言监督方法的表现。Web-DINO系列模型(1B-7B参数)展现了强大的竞争力,不仅在多模态任务中表现突出,还在传统视觉任务中超越了CLIP。研究团队计划开源模型,推动社区进一步探索视觉SSL的潜力。
来源:https://mp.weixin.qq.com/s/FpisxJQ9AXHV26lHPwzy5A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 19:18 , Processed in 0.255917 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表