清华大学团队发布通用视觉模型综述：多模态统一处理与多任务学习新进展

周大发表于 2025-7-2 15:17:58

随着多模态大模型兴起，以统一架构处理多种视觉输入与任务的通用视觉模型（VGM）虽逐渐被边缘化，但其在结构化信息与多任务处理方面仍具独特优势。清华大学鲁继文团队在 IJCV 发表的综述《Vision Generalist Model: A Survey》系统梳理了 VGM 的核心能力、模型框架、评测方法及未来挑战。VGM 可通过预训练实现零样本迁移，支持图像、点云、视频等异质输入与像素级分割、目标检测等多样化任务输出。尽管当前面临数据标注难、训练效率低、伦理风险等问题，其在智能监控、自动驾驶等实际场景中仍具广泛应用前景。
来源：https://mp.weixin.qq.com/s/yJ6U367pd1o6pqzEs1xi_Q

		自动登录	找回密码
密码			立即注册

课程导航

清华大学团队发布通用视觉模型综述：多模态统一处理与多任务学习新进展