上海AI Lab开源ShotVL模型,3B参数超越GPT-4o登顶电影理解新标杆

[复制链接]
周大 发表于 2025-7-16 14:57:27 | 显示全部楼层 |阅读模式
上海人工智能实验室联合多所高校推出ShotBench、ShotQA与模型ShotVL,填补了视觉语言模型(VLMs)在电影语言理解方面的评测与训练空白。ShotBench包含3,572个高质量问答对,覆盖八个电影摄影维度;ShotQA则提供约7万对问答的大规模训练数据。基于Qwen2.5-VL-3B的ShotVL通过两阶段训练(SFT+GRPO)在ShotBench上平均提升19%,超越GPT-4o和Qwen2.5-VL-72B等更大模型。评测显示,现有VLMs在电影理解方面准确率普遍不足60%。团队已开源全部资源,推动AI在电影分析与生成领域的应用。
来源:https://mp.weixin.qq.com/s/WpJtXOgNV6QEYKaPUH4FAQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 14:59 , Processed in 0.322066 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表