上海AI Lab开源ShotVL模型，3B参数超越GPT-4o登顶电影理解新标杆

周大发表于 2025-7-16 14:57:27

上海人工智能实验室联合多所高校推出ShotBench、ShotQA与模型ShotVL，填补了视觉语言模型（VLMs）在电影语言理解方面的评测与训练空白。ShotBench包含3,572个高质量问答对，覆盖八个电影摄影维度；ShotQA则提供约7万对问答的大规模训练数据。基于Qwen2.5-VL-3B的ShotVL通过两阶段训练（SFT+GRPO）在ShotBench上平均提升19%，超越GPT-4o和Qwen2.5-VL-72B等更大模型。评测显示，现有VLMs在电影理解方面准确率普遍不足60%。团队已开源全部资源，推动AI在电影分析与生成领域的应用。
来源：https://mp.weixin.qq.com/s/WpJtXOgNV6QEYKaPUH4FAQ

		自动登录	找回密码
密码			立即注册

课程导航

上海AI Lab开源ShotVL模型，3B参数超越GPT-4o登顶电影理解新标杆