清华大学团队发布通用视觉模型综述:多模态统一处理与多任务学习新进展

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
随着多模态大模型兴起,以统一架构处理多种视觉输入与任务的通用视觉模型(VGM)虽逐渐被边缘化,但其在结构化信息与多任务处理方面仍具独特优势。清华大学鲁继文团队在 IJCV 发表的综述《Vision Generalist Model: A Survey》系统梳理了 VGM 的核心能力、模型框架、评测方法及未来挑战。VGM 可通过预训练实现零样本迁移,支持图像、点云、视频等异质输入与像素级分割、目标检测等多样化任务输出。尽管当前面临数据标注难、训练效率低、伦理风险等问题,其在智能监控、自动驾驶等实际场景中仍具广泛应用前景。
来源:https://mp.weixin.qq.com/s/yJ6U367pd1o6pqzEs1xi_Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 18:32 , Processed in 0.275071 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表