MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

周大发表于 2024-10-30 15:30:51

浙江大学等机构推出了MMBench-Video，这是一个全面评估视频理解能力的新基准。该基准涵盖600多个长视频，涉及16个主要领域，视频时长从30秒到6分钟不等。基准测试包括26个细粒度能力评估，标注经过两次质量核验。实验结果显示，GPT-4o和Gemini-Pro-v1.5表现突出，开源图文模型在视频理解上优于视频模型。视频长度和镜头数量影响模型性能，频繁镜头切换导致理解困难。引入字幕信息显著提升模型性能，但也可能增加幻觉风险。GPT-4作为裁判模型表现出色，评分公正稳定。MMBench-Video支持在VLMEvalKit中一键评测，建立OpenVLM Video Leaderboard，为研究人员和开发者提供了强大工具。
来源：https://mp.weixin.qq.com/s/pyPfbqqbkDj45BRSBo0NsQ

		自动登录	找回密码
密码			立即注册

课程导航

MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力