周大 发表于 2024-10-30 15:30:51

MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

浙江大学等机构推出了MMBench-Video,这是一个全面评估视频理解能力的新基准。该基准涵盖600多个长视频,涉及16个主要领域,视频时长从30秒到6分钟不等。基准测试包括26个细粒度能力评估,标注经过两次质量核验。实验结果显示,GPT-4o和Gemini-Pro-v1.5表现突出,开源图文模型在视频理解上优于视频模型。视频长度和镜头数量影响模型性能,频繁镜头切换导致理解困难。引入字幕信息显著提升模型性能,但也可能增加幻觉风险。GPT-4作为裁判模型表现出色,评分公正稳定。MMBench-Video支持在VLMEvalKit中一键评测,建立OpenVLM Video Leaderboard,为研究人员和开发者提供了强大工具。
来源:https://mp.weixin.qq.com/s/pyPfbqqbkDj45BRSBo0NsQ
页: [1]
查看完整版本: MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力